'바이그램' 태그의 글 목록

바이그램

[Data Science] Ch.14 결정 분석적 사고_분석공학(고객 이탈관리)

2017. 7. 15. 12:51

앞선 포스팅에서 프로모션 사례를 통해 결정 분석적 사고에 대해 알아보았습니다.

2017/07/09 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.13 결정 분석적 사고_분석공학(자선 단체 후원할 가능성이 높은 후원자 타겟팅)

이번 포스팅에서는 고객 이탈 관리에 대한 결정 분석적 사고를 알아보도록 하겠습니다.

사례) 고객 이탈관리(이동 통신사의 고객이탈)

1. 프로모션을 제안할 적절한 고객들을 타겟팅

case1) 계약 만료 시기가 다가와 이탈할 확률이 높은 고객들

case2) 이탈할 경우 통신사에 미치는 영향이 큰 고객들

CH13에서 알아봤던 방식으로 기대 수익을 알아보면,

타겟팅 기대 수익

: 고객이 프로모션을 응할 때의 가치(기부금)

: 고객이 프로모션을 응하지 않을 때의 가치

: 고객이 프로모션을 응할 확률

(고객X가 기부할 확률*기부금 + 고객X가 기부하지 않을 확률*기부하지 않을 때 생기는 가치)

여기서, 이탈할 경우 발생하는 가치가 0이라고 가정하면 기대수익

이므로 남을 확률이 높은 고객을 타겟팅 하는 것이 가장 효과적입니다. 하지만 이 경우에는 앞선 사례와 다르게 타겟팅 하지 않았을 때 발생할 수 있는 수익도 반영하여 계산해야합니다. 비즈니스 문제가 가지는 특성에 따라 변수가 달라지기 때문입니다.

수정된 타겟팅 기대 수익

- 타겟팅한 고객 X가 통신사에 남을 때의 수익

- X를 타겟팅하지 않을 때 수익

따라서 값이 가장 큰 고객이 수익이 가장 많이 발생할 고객이라 기대하고 프로모션을 진행하면 됩니다.

기대값 프레임워크를 통한 방식은 복잡하지만 목적에 집중하면서 우리의 사고를 구조화해 체계적으로 생각하고 정교한 분석결과를 만들어 낼 수 있습니다.

데이터 분석에서 고려해야 할 사항

데이터 분석에 필요한 표본을 얻기 위해서는 각종 변수를 고려해야만 합니다.

- 환경적 변화

비즈니스 요구는 시간과 장소 구분없이 긴급하게 발생합니다.

- 가정의 축소 및 간단화 필요

새로운 프로모션으로 인한 데이터 수집의 어려움

- 과거에 실행했던 프로모션들 중 비슷했던 프로모션 이력 탐색

다양하고 많은 데이터 확보의 필요

- 데이터를 자산으로 인식하는 자세 필요

- 데이터 확보를 위한 투자 필요

2017/07/09 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.13 결정 분석적 사고_분석공학(자선 단체 후원할 가능성이 높은 후원자 타겟팅)

2017/07/03 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.12 텍스트 표현 및 마이닝(엔트로피와 n-그램)

2017/07/02 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.11 텍스트 표현 및 마이닝(IDF와 TFIDF)

2017/06/18 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.10 증거와 확률(베이즈규칙)

2017/06/17 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.9 좋은 모델은 무엇인가?(비용과 효과)

2017/06/12 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.8 좋은 모델은 무엇인가?(기댓값)

2017/06/10 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.7 좋은 모델은 무엇인가?(분류자평가)

2017/06/07 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.6 유사도

2017/06/03 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.5 과적합화

2017/05/28 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.4 데이터에 대한 모델 적합화(수학 함수를 이용한 회귀분석과 로지스틱 회귀분석)

2017/05/27 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.3 데이터에 대한 모델 적합화(수학 함수를 통한 분류)

2017/05/24 - [Cyong's 마케팅/Data Science] - [Data Science] Ch2. 트리구조모델

2017/03/25 - [Cyong's 마케팅/Data Science] - [Data Science] Ch1. 예측모델링_정보전달하는 속성 찾아내기

'Cyong's 마케팅 > Data Science' 카테고리의 다른 글

[Data Science] Ch.13 결정 분석적 사고_분석공학(자선 단체 후원할 가능성이 높은 후원자 타겟팅) (0)	2017.07.09
[Data Science] Ch.12 텍스트 표현 및 마이닝(엔트로피와 n-그램) (0)	2017.07.03
[Data Science] Ch.11 텍스트 표현 및 마이닝(IDF와 TFIDF) (0)	2017.07.02
[Data Science] Ch.10 증거와 확률(베이즈규칙) (0)	2017.06.18
[Data Science] Ch.9 좋은 모델은 무엇인가?(비용과 효과) (0)	2017.06.17

[Data Science] Ch.12 텍스트 표현 및 마이닝(엔트로피와 n-그램)

2017. 7. 3. 21:34

IDF와 엔트로피의 관계

엔트로피는 어떤 집합에 적용해 무질서 정도를 측정합니다. 엔트로피는 데이터를 분류할 때 사용합니다. 순수하게 한가지 속성에 대해 데이터를 분류하고자 할 때 ,이 데이터가 우리가 분석하려는 속성에 대해 다른 값들이 얼마나 뒤섞여 있는 지를 나타내는 것이 무질서라고 하며, 이런 무질서 정도를 측정하는 것이 엔트로피입니다.

는 집합 안에서 속성 i의 확률

이면 집합 안의 모든 항목이 i속성을 가진 경우

이면, 집합 안에서 i속성을 가진 원소가 하나도 없는 경우

IDF와 엔트로피는 둘 다 집합 안에서 속성이 얼마나 섞여 있는지를 측정하기 때문에 비슷합니다.

p(t) : 단어 t가 문서에서 나타날 확률

p(t) 추정확률 : p로 표시

문서 집합에서 단어 t의 유무에 대한 확률로 생각하면 T가 들어있을 확률은 p이고 T가 없을 확률은 1-p입니다.

not_t라는 가짜 단어를 만들어 본다면, not_t는 단어 t가 없는 문서에 가상으로 존재하는 단어를 의미합니다.

위의 식을 그래프로 표현하면, p(t)=.5를 축으로 서로 대칭을 나타냅니다.

2진 계층인 p₂=1-p₂의 엔트로피 공식 에

t단어가 포함되어 있는 확률 : p

t단어가 포함되어 있지 않은 확률 : 1-p

을 대입하면

여기에 IDF(t)와 IDF()not_t)로 대체하면,

코퍼스에 단어 t가 나타날 확률에 기반해 IDF(t)와 IDF(not_t)의 기댓값으로 엔트로피를 표현한 것입니다.

엔트로피를 그래프로 그려보면 IDF 단어 t의 희박성을 나타내는 방정식의 그래프는 엔트로피 곡선과 일치합니다.

단어주머니보다 정교한 기법

더 정교하게 문서 안의 텍스트, 단어를 처리하는 방법으로 n-그램 순열이 있습니다.

n-그램은 단어 순서가 중요한 경우, 단어 순서에 대한 정보를 보관할 수 있도록 인접한 단어들의 순서까지 포함하는 표현 기법입니다.

ex) The quick brown fox jumps

단어주머니 - quick, brown, fox, jump 라는 단어 집합

n-그램 - quick_brown, brown_fox, fox_jump 3개의 토큰으로 변환

n-그램은 개별단어보다 특정 문장이 중요한 경우에 사용합니다. 단, 특징 집합의 크기가 상당히 커진다는 단점이 있습니다.

※ 바이그램 : 인접한 쌍, 토큰

개체명 추출기

문장 추출 시, 문서에서 많이 볼 수 있는 개체명을 인식해야 하는 경우가 발생합니다. 예를 들어 Silicon Valley / New York Mets / Game of Thrones 등 의 고유명사말이죠. 이런 어구를 인식할 수 있도록 개체명 추출기라는 전처리기를 사용합니다. 개체명 측정기가 제대로 작동하기 위해서는 커다란 코퍼스를 갖고 있거나, 수작업으로 고유한 명사들을 입력해야 합니다. 개체명 추출기는 고유명사를 개체명으로 인식하기 위해 풍부한 고유명사 입력하는 것이 필요하고 또는 학습이 필요합니다.

주제모델

문서에 등장하는 단어나 개체명으로 직접 모델을 만드는 방법은 언제나 최적의 결과가 나오는 것은 아닙니다.

주제모델 : 코퍼스 안에서 먼저 주제들을 별도로 모델링하는 것, 단어들을 직접 사용하지 않고 각 주제에 맞게 단어들을 묶어 맵핑하는 것을 말합니다. 예를 들어 Korean War라는 주제를 중심으로 연관성 있는 단어들을 묶는 것입니다. 주제모델을 만드는 기법으로는 잠재의미 색인과 같은 행렬 인수분해 기법과 잠재 디리클레 할당과 같은 확률적 주제 모델이 있습니다.

2017/03/25 - [Cyong's 마케팅/Data Science] - [Data Science] Ch1. 예측모델링_정보전달하는 속성 찾아내기

2017/05/24 - [Cyong's 마케팅/Data Science] - [Data Science] Ch2. 트리구조모델

2017/05/27 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.3 데이터에 대한 모델 적합화(수학 함수를 통한 분류)

2017/05/28 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.4 데이터에 대한 모델 적합화(수학 함수를 이용한 회귀분석과 로지스틱 회귀분석)

2017/06/03 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.5 과적합화

2017/06/07 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.6 유사도

2017/06/10 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.7 좋은 모델은 무엇인가?(분류자평가)

2017/06/12 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.8 좋은 모델은 무엇인가?(기댓값)

2017/06/17 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.9 좋은 모델은 무엇인가?(비용과 효과)

2017/06/18 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.10 증거와 확률(베이즈규칙)

2017/07/02 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.11 텍스트 표현 및 마이닝(IDF와 TFIDF)

'Cyong's 마케팅 > Data Science' 카테고리의 다른 글

[Data Science] Ch.14 결정 분석적 사고_분석공학(고객 이탈관리) (0)	2017.07.15
[Data Science] Ch.13 결정 분석적 사고_분석공학(자선 단체 후원할 가능성이 높은 후원자 타겟팅) (0)	2017.07.09
[Data Science] Ch.11 텍스트 표현 및 마이닝(IDF와 TFIDF) (0)	2017.07.02
[Data Science] Ch.10 증거와 확률(베이즈규칙) (0)	2017.06.18
[Data Science] Ch.9 좋은 모델은 무엇인가?(비용과 효과) (0)	2017.06.17

PREV 1 NEXT

D.M.숑스토리

바이그램

[Data Science] Ch.14 결정 분석적 사고_분석공학(고객 이탈관리)

'Cyong's 마케팅 > Data Science' 카테고리의 다른 글

[Data Science] Ch.12 텍스트 표현 및 마이닝(엔트로피와 n-그램)

'Cyong's 마케팅 > Data Science' 카테고리의 다른 글

+ Recent posts

티스토리툴바