일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- Brightics 서포터즈
- Brigthics Studio
- 머신러닝
- 파이썬 SQL 연동
- pymysql
- 삼성 SDS
- 브라이틱스 프로젝트
- paper review
- Deep Learning for Computer Vision
- 서포터즈 촬영
- 파이썬 내장 그래프
- 분석 툴
- 데이터 분석
- 비전공자를 위한 데이터 분석
- 삼성 SDS 서포터즈
- Activation Function
- 브라이틱스 AI
- 브라이틱스 서포터즈
- 딥러닝
- 브라이틱스 분석
- Brightics EDA
- Brightics studio
- 검증 평가 지표
- Random Forest
- 브라이틱스 스태킹
- Brightics AI
- michigan university deep learning for computer vision
- Python
- 데이터 분석 플랫폼
- 범주형 변수 처리
- Today
- Total
목록Brightics 서포터즈 (20)
하마가 분석하마

안녕하세요. Brightics 서포터즈 노승찬입니다. 이번 주차는 서포터즈 활동을 마무리하면서 지금까지 한 활동에 대한 소감을 적어보려고 합니다. 서포터즈 마무리 소감 서포터즈 시작 사실 4학년까지 대학생활을 하면서 '서포터즈' 관련 활동에는 관심이 없었어요. 교육활동이랑 동아리 등 다른 활동들에만 관심을 가지고 있었죠. 서포터즈를 하면서 무언가를 배울 수 있다는 느낌이 적었다고 생각해서 큰 관심을 가지고 있지 않았습니다. 어느 날 학교에 갔는데 선배가 Brightics 프로그램을 쓰고 있는 걸 봤습니다. 분석 프로그램을 알고 배우는 것을 좋아했기에 선배에게 Brightics studio에 대해서 여러 가지 질문을 했습니다. Brightics studio는 기존에 사용하던 프로그램이랑 너무나도 달랐습니다..

안녕하세요. Brightics 서포터즈 노승찬입니다. 이번 주차는 마지막 모델링으로 스태킹을 시도해보겠습니다. Modeling 3 프로젝트 목표 고객의 기본 세부 정보를 바탕으로 잠재 고객을 타겟팅 할 수 있는 알고리즘을 개발하여 보다 나은 리드 전환을 이끌어 내는 것을 목적으로 합니다. 불균형 해결 2. STACKING 스태킹은 현실 모델에는 자주 적용되지 않지만 각종 대회에서 모델의 성능을 높이는 데 자주 사용됩니다. 다양한 대회에서 저 또한 많이 써보았는데요. 먼저 스태킹의 기본적인 이론에 대해서 알아보겠습니다. 각 모델별로 원본 학습/테스트 데이터를 예측한 결과 값을 기반으로 메타 모델을 위한 학습용/테스트용 데이터 생성 1)에서 생성된 학습용 데이터를 모두 스태킹 형태로 합쳐서 메타 모델이 학습..

안녕하세요. Brightics 서포터즈 노승찬입니다. 저번 주차에는 간단한 모델링으로 재현율을 확인했습니다. XGBoost와 Random Forest의 성능을 보았는데요. 이번 주차에는 smote를 시도해보도록 하겠습니다. Modeling 2 프로젝트 목표 고객의 기본 세부 정보를 바탕으로 잠재 고객을 타겟팅 할 수 있는 알고리즘을 개발하여 보다 나은 리드 전환을 이끌어 내는 것을 목적으로 합니다. 불균형 해결 1. smote SMOTE는 Synthetic Minority Over-sampling의 약자이다. smote란 데이터의 불균형을 해소하기 위한 방법 중 하나입니다. 먼저 불균형이 있는 데이터에서 적은 데이터 세트에 있는 개별 데이터들의 k 최근접 이웃을 찾습니다. 이 데이터와 k 개 이웃들의 차..

안녕하세요. Brightics 서포터즈 노승찬입니다. 저번 주차에는 은행 변수와 대출 변수에 초점을 맞춰서, 두 유형의 변수들이 종속변수를 포함한 다른 변수들과 어떤 관계를 갖고 있는지 확인했습니다. 이번 주차에는 전처리를 거의 하지 않았을 때의 정확도 및 변수 영향력을 확인해보고, 전처리 후의 영향력을 비교해보겠습니다. Modeling 프로젝트 목표 고객의 기본 세부 정보를 바탕으로 잠재 고객을 타겟팅 할 수 있는 알고리즘을 개발하여 보다 나은 리드 전환을 이끌어 내는 것을 목적으로 합니다. 평가 지표 고객 정보를 활용하여 잠재 고객을 선별하는 것이 본 프로젝트에서의 목표라고 말씀드렸습니다. '잠재 고객'인지 아닌지 (Approved가 0인지 1인지)를 구분하는 지금, 결과변수의 두 범주의 비율은 차이..

안녕하세요. Brightics 서포터즈 노승찬입니다. 저번 주차에는 공백값을 변수 간의 관계와 도메인 정보를 바탕으로 제거 및 채웠었습니다. 이번 주차에는 은행 데이터이니 만큼 가장 중요할 수 있는 '대출 정보'와 '은행 정보'를 조금 더 면밀하게 살펴보겠습니다. Loan & Bank Feature 프로젝트 목표 고객의 기본 세부 정보를 바탕으로 잠재 고객을 타겟팅 할 수 있는 알고리즘을 개발하여 보다 나은 리드 전환을 이끌어 내는 것을 목적으로 합니다. 은행 관련 변수 (Customer_Existing_Primary_Bank_Code와 Primary_Bank_Type 확인) 저번 주에 은행 관련 변수들을 사용해서 알고리즘을 돌려보겠다고 했었는데요. 결과변수 개수가 너무 적다는 점과 더불어 EDA에서 놓..

안녕하세요. Brightics 서포터즈 노승찬입니다. 저번 주차에 나이 변수, 고용주 카테고리 변수와 결과변수의 관계를 살펴보았습니다. 이번 주차에는 다른 변수들의 eda를 진행함과 동시에 공백 값 대체에 대해서 생각해보려고 합니다. 현재 데이터에는 많은 white space가 있습니다. 누락된 값인지 입력이 안 된 값인지 알 수 없습니다. 모든 관측치를 지우기에는 데이터 손실이 크기에 각 white space 마다 어떤 식의 접근이 가장 좋을지 생각해보려고 합니다. Replace White Space & EDA 프로젝트 목표 고객의 기본 세부 정보를 바탕으로 잠재 고객을 타겟팅 할 수 있는 알고리즘을 개발하여 보다 나은 리드 전환을 이끌어 내는 것을 목적으로 합니다. 공백 값의 관계 확인 및 eda 이..

안녕하세요. Brightics 서포터즈 노승찬입니다. 지난주에는 도메인 정보에 대해서 면밀하게 알아보고 연속형 변수와 범주형 변수의 요약 통계량을 살펴봤습니다. 이번 포스팅에서는 저번 주에 발견한 연속형 변수와 범주형 변수에서 끌어낼 수 있는 파생변수가 무엇이 있는지 보고, 만들어보겠습니다. 또한 white space 및 null 값의 처리를 어떻게 할지 찾아보겠습니다. 브라이틱스를 사용해서 파생변수를 만들 때, 어떻게 하는지 궁금하시다면 이번 포스팅을 천천히 읽어봐 주세요! 파생변수 생성 및 eda 프로젝트 목표 고객의 기본 세부 정보를 바탕으로 잠재 고객을 타겟팅 할 수 있는 알고리즘을 개발하여 보다 나은 리드 전환을 이끌어 내는 것을 목적으로 합니다. 파생변수 생성 및 eda 1. DOB 변수를 통..

안녕하세요. Brightics 서포터즈 노승찬입니다. 저번 주는 어떤 프로젝트를 할 지에 대해서 생각해보고, 주제를 정한 뒤 캐글에서 관련 데이터를 찾아 소개하는 시간을 가졌습니다. 이와 비슷한 주제로 공모전을 나갈 만큼 고객 관련 데이터를 분석하는 것을 좋아합니다. 지금까지의 데이터 및 목표는 모두 자주 듣고 경험해본 것이었는데요. 분석에 있어서 데이터가 어떤 데이터이며 분석의 정확한 목적이 무엇이고, 그 목적은 어떻게 활용될 것인가 등에 대한 고민이 필수적으로 이루어져야 한다고 생각합니다. 아직 정확하게 어떤 분야에서 이러한 분석이 필요한 것인가에 대한 이해가 완벽하게 되지 않았기에, 이번 주는 해당 주제(고객 정보를 바탕으로 한 잠재고객 타겟팅)에 대한 도메인을 알아보고 브라이틱스 스튜디오로 데이터..