일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- Deep Learning for Computer Vision
- 비전공자를 위한 데이터 분석
- Brigthics Studio
- 데이터 분석
- 삼성 SDS 서포터즈
- 브라이틱스 스태킹
- paper review
- Activation Function
- Brightics AI
- Brightics EDA
- 브라이틱스 AI
- 브라이틱스 분석
- 데이터 분석 플랫폼
- 범주형 변수 처리
- 분석 툴
- Brightics 서포터즈
- pymysql
- 검증 평가 지표
- Random Forest
- 삼성 SDS
- 딥러닝
- Python
- 브라이틱스 프로젝트
- 브라이틱스 서포터즈
- 머신러닝
- 파이썬 SQL 연동
- 파이썬 내장 그래프
- Brightics studio
- michigan university deep learning for computer vision
- 서포터즈 촬영
- Today
- Total
목록머신러닝 (7)
하마가 분석하마

[Ridge Regression] L2-norm regularization : 제곱 오차를 최소화하면서 회귀 계수 Beta의 L2-norm을 제한 [MSE Contour] MSE를 전개하면 이와 같다. MSE 식에서 판별식을 구해보자. MSE 식을 계산하여 판별식에 넣어보면 0보다 작다. 0보다 작다는 것은 '타원'의 형태를 의미한다. 즉, MSE는 타원의 형태를 가진다. 제약조건이 주어질 때 MSE 값의 변화에 따른 타원의 형태를 살펴보자. 최소제곱법은 제약조건이 주어질 때, 그 안에 들어올 수 없다. 따라서 Bias 값을 희생하며 MSE 값을 키워본다. 이 과정은 Variance를 줄이기 위해 행해지며 MSE의 판별식이 0보다 작기에 타원의 형태를 그리며 커진다. MSE 타원이 제약조건과 맞닿을 때 ..

[좋은 모델] 1) 현재 데이터를 잘 설명하는 모델 - training data를 잘 설명하는 모델로 training error를 최소화하는 모델이다.(MSE를 최소화하는 모델) 2) 미래 데이터에 대한 예측 성능이 좋은 모델 - E[MSE] = Irreducible Error + Bias^2 + Variance - Irreducible Error : 모델로 어떻게 할 수 없는 에러 - Bias^2 + Variance : 모델로 어떻게 할 수 있는 에러 [Bias와 Variance] - Expected MSE를 줄이려면 bias, variance 혹은 둘 다 낮춰야 함 (Bias와 Variance는 상충관계) - 그렇지 못하다면 둘 중에 하나라도 작으면 좋음 - Bias가 증가되더라도 variance 감..

데이터 전처리 및 feature engineering을 모두 끝냈다면 다음은 모델의 하이퍼파라미터를 최적화해야 한다. 하이퍼파라미터 최적화는 무엇인가. 머신러닝 프로젝트의 파이프라인을 가정해본다. 데이터를 가공하고, 모델을 적용해서 결과를 얻는다. 여기서 모델의 학습 과정을 컨트롤 하는 변수들을 하이퍼 파라미터라고 한다. [모든 조합 평가] 하나의 정답을 찾는데에 여러 방법이 있다. 어떻게 하면 정답 (최고의 변수)을 찾을 수 있을까? 가장 단순한 방법은 모든 조합을 평가해보고 제일 좋은 조합을 찾는 것이다. 어떤 모델이 있고 그 모델에는 세 개의 파라미터 a, b, c가 있다고 가정해보자. 최고의 성능을 내는 하나의 조합을 찾을 때 모든 조합을 다 평가하여 찾는 과정을 코드로 살펴본다. best_acc..

[랜덤포레스트의 특성] - 각각의 개별 tree는 과적합 될 수 있다. - 랜덤 포레스트는 tree 수가 충분히 많을 때 strong Law of Large numbers에 의해 과적합 되지 않고 그 에러는 limiting value에 수렴됨 - Bagging과 Random subspace 기법은 각 모델들의 독립성, 일반화, 무작위성을 최대화시켜 모델간의 p(로)를 감소시킴 - 개별 tree의 정확도, 독립성이 높을수록 랜덤포레스트의 성능이 높아짐 [랜덤포레스트의 중요 변수 선택] 랜덤 포레스트는 선형 회귀모델/로지스틱 회귀모델과는 달리 개별 변수가 통계적으로 얼마나 유의한지에 대한 정보를 제공하지 않는다. 즉, 알려진 확률분포를 가정하지 않는다.(순수한 비모수적 모델) 선형 회귀모델과 로지스틱 회귀모..

[Random Forest] ※개별 트리 모델의 단점 - 계층적 구조로 인해 중간에 에러가 발생하면 다음 단계로 에러가 계속 전파 - 학습 데이터의 미세한 변동에도 최종 결과가 크게 영향을 받음 - 적은 개수의 노이즈에도 크게 영향을 받음 - 나무의 최종 노드 개수를 늘리면 과적합 위험 (Low Bias Large Variance) [배경] 랜덤 포레스트의 배경은 '앙상블'이다. '앙상블'이란 여러 Base 모델들의 예측을 다수결 법칙 또는 평균을 이용해 통합하여 예측 정확성을 향상시키는 방법이다. Base 모델보다 앙상블 모델이 우수한 성능을 보이기 위해서는 다음과 같은 조건이 필요하다. Base 모델들이 서로 독립적 Base 모델들이 무작위 예측을 수행하는 모델보다 성능이 좋은 경우 [Base 모델에..

[Gradient Boosting Machine] 1. Gradient boosting = Boosting with gradient decent 2. 첫 번째 단계의 모델 tree1을 통해 Y를 예측하고 Residual을 다시 두 번째 단계 모델 tree2를 통해 예측하고, 여기서 발생한 Residual을 모델 tree3로 예측 3. 점차 residual이 작아짐 4. Gradient boosted model = tree1 + tree2 + tree3 => residual을 계속 모델링하여 나오는 아이디어를 모으는 것 [gradient 의미] - 미분이라 생각 - Loss function에 gradient는 손실함수를 f(x)로 미분한 값 => residual이 결국 gradient를 의미 따라서 처음 ..

[부스팅 개요] (A) 여러 개의 learning 모델을 순차적으로 구축하여 최종적으로 합침 (앙상블) => 한번에 구축하는 게 아닌 순차적(모델 구축에 순서를 고려)으로 구축 => 여러 개의 모델을 사용하기에 ‘앙상블’이라는 용어를 사용 (B) 사용하는 learning 모델은 매우 단순함 => 이진 분류 기준 정확도가 0.5 보다 조금 더 좋은 모델을 단순한 모델이라고 한다. (C) 각 단계에서 새로운 base learner를 학습하여 이전 단계의 base learner의 단점을 보완 (D) 각 단계를 거치면서 모델이 점차 강해짐 => 그래서 모델이 이름이 ‘부스팅’ => 단계를 거치면서 모델이 점점 정확해짐 [부스팅 알고리즘 종류] Adaboost (Adaptive boosting) GBM (Grad..