[빅데이터분석기사/빅분기/필기 정리]

안녕하세요!
데코입니다!

오늘 공부하는 빅데이터 분석 글 손글씨

고급 분석 기술 섹션에서. “앙상블 분석“일을 정리하려고 해요!

(출처: 이기적인 빅데이터 분석에 관한 글 – 시험집 2023)



1. 앙상블의 중요성

– 앙상블 기법은 주어진 데이터로부터 여러 학습 모델을 생성한 후 학습 모델을 결합하여 최종 모델을 생성하는 개념

1) 약한 학습자(약한 분류기, 약한 학습자)

– 높은 성공 확률, 무작위 선택 없음. 즉, 오류율이 일정 수준 이하(50% 이하)인 학습 규칙(상대적으로 부정확한 규칙, 분류기)

스팸 메일 처리 기술이 발달했다고 가정하면 스팸을 판단하는 기준은 여러 가지가 있다.

스팸이 예/아니오 기준으로만 판단된다고 가정해 봅시다.

전)

제목에 광고 스팸(예)
본문에 보험/대출이 있는 경우 스팸(예)
보낸 사람이 내 주소록에 있는 경우 스팸 없음(아니요)

위의 예에서와 같이 모든 이메일에 적용할 수 있을 만큼 강력한 특정 기준이 있지만 그렇지 않은 기준도 있습니다.


이와 같이 결과 도출에 부분적인 실패 가능성을 포함하는 다양한 학습 기준을 “약한 학습자”라고 합니다.

2) 강한 학습자(약한 분류기, 강한 학습자)

– 약한 학습자가 생성한 강력한 학습 규칙(상대적으로 정확한 규칙, 분류기)

2. 앙상블 분석의 이해

– 앙상블 분석은 동일한 학습 알고리즘을 사용할 때 개별 학습자 성능보다 더 나은 분석 성능을 나타냄
– 앙상블 기법은 다양한 약한 학습자를 통해 강한 학습자를 만들어가는 과정이다.

삼. 앙상블 분석의 유형

1) 투표

– 문자 그대로 투표로 결정하는 방법입니다.

– Voting은 투표 방식이라는 점에서 bagging과 비슷하지만 사용법에 차이가 있습니다.

# 투표와 배깅의 차이점
– 투표는 여러 학습 모델의 조합을 사용합니다.

– Bagging은 동일한 알고리즘 내에서 다른 샘플 데이터 조합을 사용합니다.

– 즉, 투표는 서로 다른 알고리즘(모델)에서 도출된 결과에 대한 최종 투표 방식을 통해 최종 결과를 선택합니다.

하드 투표투표를 통해 결과의 최종 가치를 결정하는 방법


부드러운 튜닝최종 결과의 확률 값을 모두 합산하여 각 최종 결과의 확률을 계산한 후 최종 점수를 도출하는 방법입니다.


투표: 동일한 데이터, 다른 모델

2) 부스트

– 가중치를 사용하여 순차 약한 학습자를 생성하여 강력한 학습자를 만드는 방법

– 순차적 학습을 수행하고 가중치를 부여하여 오류를 보완

– 순차적 특성으로 인해 병렬 처리가 어렵고 다른 앙상블보다 학습 시간이 오래 걸림(불리)


부스팅: 순차적 학습, 가중치 적용

3) 배깅(부트스트랩 집계)

여러 번 샘플링(부트스트랩)하고 출력을 집계하여 각 모델을 교육하는 방법

# 새깅 사용법
1. 데이터에서 부트스트랩 진행(재구성을 통한 무작위 샘플링)
2. 부트스트랩 데이터를 사용한 모델 교육
3. 학습된 모델의 결과를 집계하여 최종 결과값 산출


– 범주형 데이터는 투표 후 결과 집계, 연속 데이터는 평균 집계


– 선택한다는 것의 의미

예) 6개의 결정 트리 모델(카테고리 데이터 – 투표 수)

4트리 모델: 예측

2트리 모델: B-예측

= 투표를 통해 더 많은 예측을 가진 A의 최종 선택

예) 6개의 의사결정 트리 모델(연속 데이터 – 평균 집계)

2가지 트리 모델: 4가지 예측

2가지 트리 모델: 6가지 예측

2개의 트리 모델: 8개의 예측

= 평균적으로 마지막 6개 선택


– Bagging은 간단하지만 효과적인 방법입니다.
대표적인 모델은 “랜덤포레스트”


Bagging: 부트스트랩(중복 추출 데이터), 동일 모델


오늘 저는 Big Data Analyst 필기 시험을 준비하고 있습니다.

앙상블 분석 내용을 정리해보았습니다!

앙상블 분석, 과거에 데이터 분석에 지원한 적이 있지만,

나는 “처짐과 부스팅의 차이점을 설명하십시오!
“라는 질문을 받았습니다!

제 생각에는 필기시험 앙상블 테크닉에서

– 배깅/부스팅/보팅의 개념 (하드 보팅, 소프트 보팅)

– 패킹시 부트스트랩은 “복구된 랜덤샘플(중복가능)”

이 부분에서 문제가 생길 것 같아요!

설명하기 어려운 부분이나 잘 이해되지 않는 부분

질문이 있으시면

댓글을 남겨주세요!

여러분의 궁금증을 빠르게 해결해드리겠습니다!

좋아요와 댓글은 큰 힘이 됩니다!

오늘도 이 글을 읽어주셔서 감사합니다!
🙂