앞선 포스팅에서 프로모션 사례를 통해 결정 분석적 사고에 대해 알아보았습니다.

2017/07/09 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.13 결정 분석적 사고_분석공학(자선 단체 후원할 가능성이 높은 후원자 타겟팅)

이번 포스팅에서는 고객 이탈 관리에 대한 결정 분석적 사고를 알아보도록 하겠습니다.


사례) 고객 이탈관리(이동 통신사의 고객이탈)

1. 프로모션을 제안할 적절한 고객들을 타겟팅

case1) 계약 만료 시기가 다가와 이탈할 확률이 높은 고객들

case2) 이탈할 경우 통신사에 미치는 영향이 큰 고객들


CH13에서 알아봤던 방식으로 기대 수익을 알아보면,

타겟팅 기대 수익

 : 고객이 프로모션을 응할 때의 가치(기부금)

 : 고객이 프로모션을 응하지 않을 때의 가치

 : 고객이 프로모션을 응할 확률

(고객X가 기부할 확률*기부금 + 고객X가 기부하지 않을 확률*기부하지 않을 때 생기는 가치)

여기서, 이탈할 경우 발생하는 가치가 0이라고 가정하면 기대수익 이므로 남을 확률이 높은 고객을 타겟팅 하는 것이 가장 효과적입니다. 하지만 이 경우에는 앞선 사례와 다르게 타겟팅 하지 않았을 때 발생할 수 있는 수익도 반영하여 계산해야합니다. 비즈니스 문제가 가지는 특성에 따라 변수가 달라지기 때문입니다.


수정된 타겟팅 기대 수익

- 타겟팅한 고객 X가 통신사에 남을 때의 수익

- X를 타겟팅하지 않을 때 수익

따라서 값이 가장 큰 고객이 수익이 가장 많이 발생할 고객이라 기대하고 프로모션을 진행하면 됩니다.


기대값 프레임워크를 통한 방식은 복잡하지만 목적에 집중하면서 우리의 사고를 구조화해 체계적으로 생각하고 정교한 분석결과를 만들어 낼 수 있습니다.


데이터 분석에서 고려해야 할 사항

데이터 분석에 필요한 표본을 얻기 위해서는 각종 변수를 고려해야만 합니다.

- 환경적 변화

비즈니스 요구는 시간과 장소 구분없이 긴급하게 발생합니다.

- 가정의 축소 및 간단화 필요

새로운 프로모션으로 인한 데이터 수집의 어려움

- 과거에 실행했던 프로모션들 중 비슷했던 프로모션 이력 탐색

다양하고 많은 데이터 확보의 필요

- 데이터를 자산으로 인식하는 자세 필요

- 데이터 확보를 위한 투자 필요


2017/07/09 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.13 결정 분석적 사고_분석공학(자선 단체 후원할 가능성이 높은 후원자 타겟팅)

2017/07/03 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.12 텍스트 표현 및 마이닝(엔트로피와 n-그램)

2017/07/02 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.11 텍스트 표현 및 마이닝(IDF와 TFIDF)

2017/06/18 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.10 증거와 확률(베이즈규칙)

2017/06/17 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.9 좋은 모델은 무엇인가?(비용과 효과)

2017/06/12 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.8 좋은 모델은 무엇인가?(기댓값)

2017/06/10 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.7 좋은 모델은 무엇인가?(분류자평가)

2017/06/07 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.6 유사도

2017/06/03 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.5 과적합화

2017/05/28 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.4 데이터에 대한 모델 적합화(수학 함수를 이용한 회귀분석과 로지스틱 회귀분석)

2017/05/27 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.3 데이터에 대한 모델 적합화(수학 함수를 통한 분류)

2017/05/24 - [Cyong's 마케팅/Data Science] - [Data Science] Ch2. 트리구조모델

2017/03/25 - [Cyong's 마케팅/Data Science] - [Data Science] Ch1. 예측모델링_정보전달하는 속성 찾아내기


기본개념 : 데이터 과학으로 비즈니스 문제를 해결하려면 분석 공학에서 시작합니다. 가용한 데이터, 도구 기법에 기반하여 분석적 해결책을 설계합니다.

응용기법 : 데이터 과학 해결책을 설계하기 위한 프레임 워크로서의 기댓값.


비즈니스 문제에서의 데이터 과학의 한계

복잡하고 다양한 변수 : 원칙에 따른 기법만으로 해결불가합니다.

제대로 표현되지 않은 데이터 : 정보나 지식 추출불가합니다.

데이터 과학만으로 비즈니스 문제를 해결하기 어렵습니다. 비즈니스 문제를 해결하기 위해서는 비즈니스에 대한 이해(분석공학)와 데이터 이해(데이터 과학)이 동반되어야 합니다.

* 데이터 과학 : 원칙에 따른 기법들을 이용해 데이터로 부터 정보나 지식을 뽑아내는 학문입니다.

* 분석공학 : 사용가능한 데이터 도구기법에 기반하여 분석적으로 해결책 설계하는 것을 의미합니다.


아래의 사례를 통해 비즈니스 문제를 도구를 통해 하위문제로 분할하고 각 하위 문제를 유효성이 입증된 기법을 이용해 해결, 원래의 문제를 해결하기 위해 각 하위문제 해결책을 통합함으로써 도구가 어떻게 작동하는지 확인하도록 하겠습니다.

기댓값 프레임워크

데이터 분석 문제에 대한 생각을 구조화하는데 상당히 유용한 툴로 1.문제의 구조화 2.데이터에서 추출할 수 있는 분석 항목 3.다른 재원으로 부터 가져와야 할 분석 항목으로 구성되어 있습니다.


사례) 자선 단체 후원할 가능성이 높은 후원자 타겟팅

1. 우리의 목표는 기부 할 사람을 타겟팅 하는 것인가?

후원요청 편지에 응할 가능성이 높은 후원자를 타겟팅 → 응답의 형태가 다양 (기부자마다 기부 금액이 다를 수 있습니다.(A는 10만원 B는 1만원)

같은 비용을 소요한다면 기부 금액이 큰 고객을 타겟팅 하는 것이 효과적입니다.

2. 기부액을 최대화하는 것인가

편지를 보내는 비용이 1천원일 때 많은 이에게 편지를 보냈으나 대부분이 1천원씩만 기부할 경우, 실제 모금된 후원금은 거의 없는 상황이 됩니다. 결국 우리의 목표는 후원수익(비용을 공제한 순수 후원금)의 최대화일 것입니다. 즉, 모금된 전체 기부금 > 전체 편지 발송비용이 되는 것입니다.

이 경우, 기댓값 프레임워크를 사용하면 데이터 분석을 구조화 할 수 잇습니다.


타겟팅 기대 수익

 : 고객이 프로모션을 응할 때의 가치(기부금)

 : 고객이 프로모션을 응하지 않을 때의 가치

 : 고객이 프로모션을 응할 확률

(고객X가 기부할 확률*기부금 + 고객X가 기부하지 않을 확률*기부하지 않을 때 생기는 가치)

하지만 위의 방법은 고객이 동일한 후원금을 납부한다는 전제가 필요하므로, 고객마다 납부한 금액을 달리 적용할 수 있도록 공식을 수정해야만 합니다.


수정된 타겟팅 기대 수익

 : 고객X가 프로모션을 응할 때의 A가 기부하는 금액 - 후원을 요청하는 데 드는 비용

 : (고객X가 프로모션을 응하지 않을 때) 후원을 요청하는 데 드는 비용

 : 고객이 프로모션을 응할 확률

(고객X가 기부할 확률*고객X의 기부금 + 고객X가 기부하지 않을 확률*프로모션 비용)
,값은 회귀 분석 모델링을 통해서 구할 수 있습니다. 과거 이력 데이터를 분석, 대략적인 금액 확인 가능합니다. 단, 과거에 캠페인에 응했던 고객들에 대한 데이터만 활요앻야 합니다. 대부분의 고객들은 캠페인에 응하지 않으므로 기부할 금액이 0이 되는 경우가 발생할 수 있기 때문입니다. 결국 수익이 언제나 0보다 크기를 원하므로 다음과 같은 부등식을 유도할 수 있습니다.


수정된 타겟팅 기대 수익 적용

(고객X가 기부할 확률*고객X의 기부금 > 프로모션 비용)

즉, 예상 기부액이 기부 요청에 들어가는 비용보다 커야 합니다. 이렇듯 기댓값 프레임 워크는 복잡한 비즈니스 문제를 조금 더 단순한 하위문제로 분할하는데 도움이 될 뿐만 아니라, 이 하위 결과들을 어떻게 결합해야 하는 지 알려줍니다.



2017/07/03 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.12 텍스트 표현 및 마이닝(엔트로피와 n-그램)

2017/07/02 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.11 텍스트 표현 및 마이닝(IDF와 TFIDF)

2017/06/18 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.10 증거와 확률(베이즈규칙)

2017/06/17 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.9 좋은 모델은 무엇인가?(비용과 효과)

2017/06/12 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.8 좋은 모델은 무엇인가?(기댓값)

2017/06/10 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.7 좋은 모델은 무엇인가?(분류자평가)

2017/06/07 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.6 유사도

2017/06/03 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.5 과적합화

2017/05/28 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.4 데이터에 대한 모델 적합화(수학 함수를 이용한 회귀분석과 로지스틱 회귀분석)

2017/05/27 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.3 데이터에 대한 모델 적합화(수학 함수를 통한 분류)

2017/05/24 - [Cyong's 마케팅/Data Science] - [Data Science] Ch2. 트리구조모델

2017/03/25 - [Cyong's 마케팅/Data Science] - [Data Science] Ch1. 예측모델링_정보전달하는 속성 찾아내기


Review


전체 데이터 집합을 세분화하여 더욱 정확한 정보를 전달하는 속성을 찾아가면서 감독 세분화 모델을 만듭니다.


[용어정리]


모델 : 목적 달성을 위해 실 세계를 명확화, 단순화하여 일정한 규칙으로 표현하는 것.

모델링 : 데이터에서 발견된 특정한 규칙에 의해 모델의 종류나 패턴을 생성하는 데 그것을 발견하는 행위.

예측 : 발생할 일이나, 모르는 값을 추정하는 것.

예측모델 : 어떤 값을 예측하기 위해 일정한 규칙으로 표현한 공식.

예측모델링 : 데이터 과학에서 타겟 값(미래의 행동 또는 변화의 결과)을 예측하는 것.

데이터 마이닝 : 모델이 가능한 한 데이터에 잘 맞도록 파라미터를 튜닝하는 것.

파라미터 : 전달자

파라미터 학습(Parametric modeling) : 파라미터를 수정하여 모델의 정확성을 높이는 방법


파라미터 학습에 대한 주요 가정


1. 2개의 결과값만 고려(어떤 사건이 발생한다,  안한다)합니다.

2. 속성은 수치형 속성(즉, 숫자로 표기된 속성)만 고려합니다.

3. 수치형 데이터는 표준화하지 않습니다.(예를 들어, 나이, 소득 등의 단위가 다른 데이터를 공통단위로 표준화하지 않습니다.)


수학 함수를 통한 분류


선형 판별 함수


모델을 데이터에 적합화하려 할 때 모델을 수학적으로 표현하면 도움이 됩니다.

이를 선형 판별식이라 하며, 결정 경계를 나타내는 함수는 속성들의 선형 조합(가중치의 합)입니다.

속성의 가중치 합으로 모델을 표현할 수 있으며, 이 선형모델이 일종의 다변형 감독 세분화입니다.

여러 속성을 한꺼번에 고려하기 위해 속성을 변수로 사용해 수학함수로 만듭니다.

선형함수의 가중치가 기울기입니다. 올바른 가중치는 특정데이터 세트에 맞도록 만들어야 합니다. 데이터 학습 후 알아낸 가주이는 각 특징의 중요도를 나타내는데, 특정 가중치가 크면 타겟을 분류하는 데 더 중요한 특징으로 생각되며, 특정 가중치가 0에 가까울 수록 그 특징은 무시됩니다.

하지만 계층을 잘 나누는 선을 고르는 일은 쉽지 않습니다. 그렇기 때문에 각각의 판별식은 데이터 모델을 나타내며, 훈련 데이터 세트를 완벽히 구분하는 선은 무한히 많음에도 불구하고 어떤 선을 골라야 할지의 선택이 문제가 됩니다.


목적함수의 최적화


데이터 마이닝하는 진정한 목표에 맞는 목적 함수를 만드는 일은 거의 불가능 합니다. 하지만 목적함수를 만드는 효율적인 방법들이 있으며, 가장 효율적인 방법은 <지원벡터기계(Support Vector Machine(SVM))>가 있고, 데이터 마이닝 기법 중 선형모델을 적용해 계층 확률을 추정하는 <로지스틱 회귀 분석(Logistic regression)>이 있습니다. SVM과 로지스틱회귀분석에 대해서 나중에 좀 더 자세히 다루도록 하고, 아래의 예를 통해 SVM과 로지스틱 회귀분석에 대해서 간략하게 알아보도록 하겠습니다.


ex) 아이리스(나무)의 여러 종에 대한 데이터 세트

아이리스 세토사 / 아이리스 베르시컬로 2종류를 분류하여 x축: 꽃잎 너비, y축 : 꽃받침 너비의 측정값으로 둡니다.

로지스틱 회귀분석 : 두 계층을 완전히 분할 / 선 왼쪽 - 베르시 컬로, 선 오른쪽 - 세토사로 분류

SVM : 두 덩어리의 거의 한 가운데 있으나, 별모양을 분리해내지는 못합니다.


객체를 점수화하고 순위매기는 선형판별함수


어느 객체가 어느 계층에 속하는 지가 아닌, 속할 확률이 어느 정도인지 알고 싶은 경우 사용합니다. 예를 들어, 어떤 고객이 프로모션에 응할 가능성이 높은 지, 어느 고객이 계약 만료 후 해지할 가능성이 높은지 알아볼 때 선형판별함수로 객체가 어떤 계층에 속할 확률에 따라 순서를 매기고 결정경계에 있는 사람들은 어느 계층에 속할 지 가장 불확실하고 멀어질수록 확률이 높다 판단할 수 있습니다.


지원벡터기계(SVM) 개요


SVM은선형판별식으로써 특징에 대한 선형 함수에 기반해 객체를 분류합니다.

SVM의 목적함수 : 아직 분석하지 않은 데이터를 쉽게 분류하기 위해 선형판별식 주위의 폭을 최대로 만드는 것이 목적입니다.

(앞서 말한대로, 목적함수는 계층 두개를 분할하는 무수한 선형판별식 중 어떤 선이 가장 좋을 지 선택합니다.)

경첩손실함수 : 분류가 불가능한 데이터 처리방법으로 잘못 분류한 데이터에 벌점을 적용하여 가장 잘 맞는 함수만 사용할 수 있도록 하는 함수입니다.(분할경계에서 멀리 떨어질수록 더 많은 벌점을 부여함)



2017/03/25 - [Cyong's 마케팅/Data Science] - [Data Science] Ch1. 예측모델링_정보전달하는 속성 찾아내기

2017/05/24 - [Cyong's 마케팅/Data Science] - [Data Science] Ch2. 트리구조모델

모델, 유도, 예측


모델이란 목적을 달성하기 위해 실세계를 명확하, 단순화하여 일정한 규칙으로 표현 한 것입니다. 즉, 확률함수로서 특징을 입력받아 타겟 변수값을 추정하는 것입니다. 쉽게 설명하지면 경제학에서의 '수요공급곡선'은 수요와 공급에 대한 관계를 단순하게 표현하기 위해 만들어진 모델입니다. 


모델링이란 속성 또는 특징와 같은 일련의 변수와 타겟 변수라고 불리는 사전에 정의한 변수간의 관계를 보여주는 모델을 만드는 행위를 말합니다. 


예측이란 발생할 일이나 모르는 값을 추정하는 것인데 , 예측 모델(어떤 값을 예측하기 위해 일정한 규칙으로 표현한 공식), 예측 모델링을 통해 예측을 합니다.


감독 세분화 (Supervised Approach)


감독방법으로 데이터에서 패턴을 만드는 방법에 대해 생각해보면 타겟변수를 기준으로 전체 데이터를 유사한 값을 가진 세그먼트로 분할하는 방법이 있다. 타겟값은 모르지만 알려진 변숫값으로 분할 한다면 이 세그먼트는 타겟 변숫값을 예측하는데 사용될 수 있다. 그리고 두드러진 세그먼트를 자동으로 뽑아내기 위해서는 정보를 전달하는 속성을 알아보고 이 기법을 반복 적용해 어떻게 감독 세분화하는지를 알아야 한다.


정보를 전달하는 속성의 선택


2진 분류인 타겟 변수값(yes 또는 no)을 생각해봅시다. 사람들 중 대손상각 여부와 여러 속성을 데이터로 하면 어느 세그먼트에 속한 그룹원이 다른 세그먼트 그룹원보다 상각률이 높은지 낮은지 예측할 수 있습니다.


그러나 기술적으로 복잡한 문제가 많습니다.


a. 그룹을 완전히 분리하는 속성은 거의 없다.

b. 3개 이상의 값을 가진 속성도 많다.

c. 수치값을 가지는 속성들도 많다.


이러한 문제를 해결하기 위해 순도에 기반한 여러 공식들이 존재합니다.


가장 널리 사용되는 분할 기준은 정보증가량(IG)이라고 부릅니다.


정보증가량(Information Gain, IG)와 엔트로피(entropy)


정보증가량은 엔트로피라고 불리는 순도에 기반합니다. 엔트로피는 어떤 집합에 적용해 무질서의 정도를 측정하는 것입니다. 뒤죽박죽 섞인 정보일수록 엔트로피가 높습니다.


정보의 엔트로피를 구하는 공식은 아래와 같습니다.

                         

위 식에서 각 는 i 번째 속성의 확률을 의미합니다.

즉, 인 경우 100%의 확률로 모든 원소가 i번째 속성을 가지는 것을 의미하고 인 경우에는 i번째 속성을 가진 원소가 하나도 존재하지 않는 것을 의미합니다.

엔트로피는 0일 경우 무질서 정도가 최소이고 1일 경우 무질서 정도가 최대라 할 수 있다.


분할, 분류를 통해 엔트로피가 많이 줄어들 수록 좋은 분할이라고 말할 수 있을 겁니다. 어떤 속성에 따라 분류하면 전체그룹의 엔트로피가 개선되는지 추정할 수 있도록 나타내주는 수치가 IG입니다.


정보증가량를 구하는 공식은 아래와 같습니다.


위 식에서 는 분할 전 집합이고 는 분할 후 i번째 집합을 의미합니다.


정보증가량으로 판단할 때에는 분할 후 집합이 완전히 순수할 필요는 없으며, 분할한 후의 집합의 개수에 상관없이 적용할 수 있습니다. 또한 분할 후 집합의 크기를 고려해 가중치를 조절할 수도 있습니다.


하지만 기술적으로 너무 다양한 값을 가질 수 있는 속성에 대해서는 문제가 발생할 수 도 있습니다. 같은 속성을 기준으로 세분화하면 IG는 상당히 늘어나지만 예측이 난해해지는 과적합화(Over-fitting)가 발생할 수 도 있습니다.


타겟변수가 수치형일 경우에는 수치형값의 불순도를 측정하는 방법인 분산을 이용합니다. 즉, 수치형 타겟값을 세분화하려면 가중치 평균의 분산이 가장 많이 줄어드는 값을 선택하면 됩니다.


IG을 증가시키는 속성선택


구체적인 데이터 마이닝을 위해선 속성과 타겟변수를 가진 객체가 담겨있는 데이터세트를 분석해 타겟변수를 추정하는데 필요한 정보를 가장 많이 전달하는 속성을 결정해야 합니다. 그리고 과적합화를 피하기 위해 데이터 세트에서 타겟변수를 예측할 때에는 데이터마이닝 해야 할 속성이 너무 많은 것은 아닌지 전혀 쓸모 없는 것이 있는 것은 아닌지 의심해봐야 합니다.

+ Recent posts