일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 머신러닝
- 삼성 SDS 서포터즈
- Brightics 서포터즈
- 브라이틱스 서포터즈
- 파이썬 SQL 연동
- pymysql
- 브라이틱스 프로젝트
- Random Forest
- Brightics studio
- michigan university deep learning for computer vision
- 서포터즈 촬영
- Python
- 비전공자를 위한 데이터 분석
- 브라이틱스 분석
- 데이터 분석
- 딥러닝
- 범주형 변수 처리
- Brightics EDA
- 브라이틱스 AI
- paper review
- Deep Learning for Computer Vision
- 검증 평가 지표
- Brightics AI
- 데이터 분석 플랫폼
- 분석 툴
- 삼성 SDS
- 브라이틱스 스태킹
- 파이썬 내장 그래프
- Brigthics Studio
- Activation Function
- Today
- Total
목록범주형 변수 처리 (2)
하마가 분석하마

범주형 변수가 존재하는 데이터를 분석할 때 알고리즘의 성능을 높이기 위한 방법에는 여러 개가 있다. 유명한 '미국 성인 인구조사 데이터'를 통해서 실습해보겠다. 프로젝트의 목적은 성인 데이터를 가지고 소득 범위를 예측하는 것이다. 대부분의 변수의 의미가 무엇인지 자명하므로 바로 전처리 및 모델링을 해보겠다. 먼저 타겟 변수 (income)가 이진 범주이므로 AUC를 검증 메트릭으로 사용한다. 범주형 변수의 처리에 따른 모델 성능을 보는 것이 목적이기에 단순화를 위해 수치형 변수들은 제거하였다. 원핫인코딩과 로지스틱 회귀를 시도해보자 ## ohe_logres.py -> 로지스틱 회귀 모델 import pandas as pd from sklearn import linear_model from sklearn ..

범주형 변수는 실무에서 흔하게 접하는 변수형이다. 다양한 종류의 범주형 변수에 접근하는 방법을 알아보자. 범주형 변수는 다음 2가지 종류로 분류된다. 명목형(nominal) 변수 순서형 (ordinal) 변수 명목형 변수는 범주 간의 순서가 정의 되지 않는 둘 혹은 그 이상의 범주를 가진 변수이다. 예로 성별을 들 수 있다. 순서형 변수는 범주 간의 순서, 혹은 수준이 존재하는 범주형 변수이다. 예로 저임금, 중임금, 고임금의 3가지 수준을 갖는 임금 변수는 순서형 변수이다. 두 가지 범주를 갖는 이진 변수 역시 범주형 변수에 포함시킬 수 있다. 또한 범주 간에 주기가 존재하는 주기형 (cyclic) 변수도 있다. 예로 요일과 같이 월요일부터 일요일까지 일곱 가지 범주 일주일 주기로 반복된다. 4 종류의..