일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- Brightics AI
- 브라이틱스 서포터즈
- 데이터 분석
- 브라이틱스 프로젝트
- 삼성 SDS
- 머신러닝
- Python
- Brightics studio
- pymysql
- Activation Function
- 브라이틱스 스태킹
- 데이터 분석 플랫폼
- Brigthics Studio
- 파이썬 SQL 연동
- Random Forest
- 검증 평가 지표
- michigan university deep learning for computer vision
- Deep Learning for Computer Vision
- Brightics 서포터즈
- 삼성 SDS 서포터즈
- 딥러닝
- Brightics EDA
- 브라이틱스 AI
- paper review
- 비전공자를 위한 데이터 분석
- 분석 툴
- 범주형 변수 처리
- 파이썬 내장 그래프
- 서포터즈 촬영
- 브라이틱스 분석
- Today
- Total
하마가 분석하마
[Bagging] 3. Random Forest-1 본문
[Random Forest]
※개별 트리 모델의 단점
- 계층적 구조로 인해 중간에 에러가 발생하면 다음 단계로 에러가 계속 전파
- 학습 데이터의 미세한 변동에도 최종 결과가 크게 영향을 받음
- 적은 개수의 노이즈에도 크게 영향을 받음
- 나무의 최종 노드 개수를 늘리면 과적합 위험 (Low Bias Large Variance)
[배경]
랜덤 포레스트의 배경은 '앙상블'이다. '앙상블'이란 여러 Base 모델들의 예측을 다수결 법칙 또는 평균을 이용해 통합하여 예측 정확성을 향상시키는 방법이다. Base 모델보다 앙상블 모델이 우수한 성능을 보이기 위해서는 다음과 같은 조건이 필요하다.
- Base 모델들이 서로 독립적
- Base 모델들이 무작위 예측을 수행하는 모델보다 성능이 좋은 경우
[Base 모델에 따른 앙상블 모델]
랜덤포레스트는 Base 모델로 의사결정나무를 사용한다. 의사결정나무는 Base 모델로 활용도가 높다. 데이터 크기가 커도 빠르게 구축되는 'Low computational complexity'와 데이터 분포에 대한 전제가 필요 없는'Nonparametric (비모수적)' 모델이기 때문이다.
[핵심 아이디어]
- 다수의 의사결정나무모델에 의한 에측 종합
- 일반적으로 하나의 의사결정나무보다 높은 에측 성능을 보여줌
- 관측치 수에 비해 변수의 수가 많은 고차원 데이터에서 중요 변수 선택 기법으로 널리 활용됨
[Bagging]
Bagging은 'Bootstrap Aggregating'의 약자로 각각의 bootstrap 샘플로부터 생성된 모델을 합치는 것이다. 먼저 '붓스트랩 (Bootstrap)'에 대해 알아보자.
다음은 'Aggregating'을 살펴보자. 붓스트랩 set을 사용하여 예측을 하는데에는 3가지 방법이 있다. '보팅 (voting)', '가중평균 (weighted voting)', '확률값의 사용' 에 대해서 하나씩 살펴보자. 수식이 들어가서 이 부분 또한 아이패드에 적어놓은 것을 올리겠다. 먼저 붓스트랩 어떤식으로 이루어지는지 보자.
1. 보팅 (voting)
2. 가중평균 (weighted voting)
3. 확률값의 사용
[Random subspace]
랜덤포레스트의 핵심은 '다양성 (Diversity)'과 '랜덤 (Random)'이다. 다양성은 배깅을 통해, 랜덤은 random subspace를 통해 얻는다. random subspace에 대해 살펴보자.
'알고리즘' 카테고리의 다른 글
[Regularization model-1] Ridge Regression (1) (0) | 2021.06.02 |
---|---|
[Boosting] 4. XGBoost, Light GBM (0) | 2021.03.20 |
[Bagging] 3. Random Forest-2 (0) | 2021.03.16 |
[boosting] 2. GBM (0) | 2021.03.08 |
[boosting] 1. AdaBoost (0) | 2021.03.04 |