하마가 분석하마

[개인 분석-1주차] 분석 주제 선정 본문

Brightics 서포터즈

[개인 분석-1주차] 분석 주제 선정

Rrohchan 2021. 8. 31. 16:10

안녕하세요.

Brightics 서포터즈 노승찬입니다.

앞으로 약 8주 동안 개인 프로젝트를 진행할 예정입니다. 앞으로 하고 싶거나 해보고 싶었던 것에 대해서 생각해본 뒤 캐글에서 데이터를 찾아보았습니다. 시계열, 금융 등의 데이터에 관심이 많은 지금, 공모전을 통해 시계열 데이터를 다뤄보고 있기에 금융 쪽에 집중해서 알아보았고, 흥미로운 주제와 데이터를 발견하여 이에 대해 분석을 해보려고 합니다!

 

주제 선정 및 소개

 

 

분석 배경

 

은행의 디지털 분야는 리드 전환 (lead conversion)의 문제에 직면해 있습니다. 리드 전환은 리드를 유료 고객으로 전환하는 마케팅 프로세스로 제품이나 서비스를 구매하려는 욕구를 자극하고 구매 결정을 유도하는 모든 마케팅 관행을 수반합니다. 지난 시점까지 (데이터를 공개하기까지의 시점) 해당 부서(디지털 분야)의 주요 초점은 전환 유입경로로 들어가는 리드 수를 늘리는 것이었습니다. 기업은 검색, 디스플레이, 이메일 캠페인 및 제휴 파트너와 같은 다양한 채널을 사용한 리드 전환 전략을 세우고 고객으로 전환하기 위해 노력합니다.

 

회사는 더 높은 전환율(제품 구매로 이어짐)을 가진 리드의 세그먼트를 식별하여 추가 채널과 리마켓팅을 통해 이러한 잠재 고객을 구체적으로 타겟팅할 수 있기를 원합니다. 본 프로젝트는 고객의 기본 세부 정보를 바탕으로 잠재 고객을 타겟팅 할 수 있는 알고리즘을 개발하여 보다 나은 리드 전환을 이끌어 내는 것을 목적으로 합니다.

 

 

도메인 관련 지식

 

마케팅 리드는 브랜드의 제품이나 서비스에 관심을 보이는 사람을 말하며, 이는 그 사람을 잠재 고객으로 만듭니다. 모든 회사의 주요 목표는 가능한 한 많은 리드를 생성하는 것입니다. 회사는 관련 콘텐츠 및 제안을 통해 잠재 고객을 구매 경로로 안내해야 합니다.

이 데이터 세트 및 사용 사례에서 우리는 적격 리드 및 잠재 고객을 식별하기 위한 은행의 마케팅 부서 전략이 제안으로 요청된 대출을 식별하고 요청자를 고객으로 전환율이 더 높은 리드 세그먼트로 승인하는 것이라고 가정했습니다.

 

 

프로젝트 주제

 

고객 정보를 바탕으로 한 잠재고객 타게팅

 

 

데이터 설명

 

데이터는 고객의 기본적인 특성들로 이루어져 있습니다. 성별, 생년월일, 소득, 은행 관련 정보, 대출 정보 등 총 21개의 독립변수로 구성되어 있습니다. train 데이터는 69714개로 이루어져 있고, test 데이터는 30000개로 되어 있습니다.

 

 

변수 설명

 

독립변수

변수명 타입 설명
ID object 고유 고객 ID
DOB  datetime 지원자의 생년월일
City_Code object 도시의 익명 코드
Employer_Category1 object 익명의 고용주 기능
Monthly_Income int 월 소득(달러)
Primary Bank Type object 익명 은행 기능
Source  object 리드 출처를 나타내는 범주형 변수
Existing_EMI  int 기존 대출의 EMI(달러)
Loan_Period int  대출 기간(년)
EMI int 요청된 대출 금액의 EMI(달러)

 

변수명 타입 설명
Gender  object 지원자의 성별
Lead Creation Date datetime 리드가 생성된 날짜
City_Category object 익명의 도시 기능
Employer_Category2 object 익명의 고용주 기능
Customer Existing Primary Bank Code  object  익명의 고객 은행 코드
Contacted object 컨택 확인됨(Y/N)
Source_Category object 소스 유형
Loan_Amount int 대출 요청 금액
Interest_Rate int 대출 금액의 이자율
Var1 int 여러 수준의 익명화된 범주형 변수

 


종속변수

변수명 타입 설명
Approved  int 고객이 적격 리드인지 여부(1-0)

 

 

기대효과

 

마케팅 팀과 영업 팀 모두 리드가 고객으로 전환될 가능성이 높다고 판단하면, 리드는 구체적인 금액으로 표시되는 기회로 바뀝니다. B2C 마케팅에서는 보통 한 사람을 대상을 마케팅을 수행합니다. 개개인의 고객 특성에 집중해야 하는 만큼 그 수가 늘어나면 투자해야 하는 시간과 금액은 기하급수적으로 늘어납니다. 따라서 잠재 고객을 보다 빠르고 정확하게 특정할 수 있게 도와주는 본 프로젝트는 기업의 마케팅에 긍정적인 영향을 줄 것이라 생각합니다.

 

 

수행계획

 

먼저 도메인에 대해서 공부해보려고 합니다. 은행의 리드 전환에 있어서 이에 영향을 미치는 요인이 어떤 것이 있는지 등의 정보를 변수에 반영하고 가중치를 주어야 하기 때문입니다. 데이터를 살펴보기 전에 관련 분야에 있어 공부를 해보려고 합니다.

 

이후 eda, 도메인 정보를 바탕으로 한 feature engineering을 진행할 것입니다. 변수의 전처리에 있어서는 아직 데이터를 제대로 살펴보지 못했기에 어떤 방향이 좋을지 모르겠어서 관련 부분을 공부와 변수 이해를 바탕으로 정리해 가려 합니다.

 

결과 변수가 이진형이기에 다양한 평가 지표에서의 성능을 살펴볼 예정이며, 고객이 적격 리드인지 살펴보는 것에 초점을 둘 것입니다. 마지막으로 적격 리드인지 구분하는 데에 가장 중요한 요소가 무엇인지 알아본 후 향후 수행 계획을 수립할 것입니다.

 

 

https://www.kaggle.com/arashnic/banking-loan-prediction

 

Banking | Marketing | Leads Conversion Data

Help to increase customer acquisition

www.kaggle.com

 

"Brightics 서포터즈 활동의 일환으로 작성된 포스팅입니다"

 

# 이미지 출처 <a href="https://kr.freepik.com/vectors/business">Business 벡터는 vectorjuice - kr.freepik.com가 제작함</a>