기본개념 : 데이터 과학으로 비즈니스 문제를 해결하려면 분석 공학에서 시작합니다. 가용한 데이터, 도구 기법에 기반하여 분석적 해결책을 설계합니다.

응용기법 : 데이터 과학 해결책을 설계하기 위한 프레임 워크로서의 기댓값.


비즈니스 문제에서의 데이터 과학의 한계

복잡하고 다양한 변수 : 원칙에 따른 기법만으로 해결불가합니다.

제대로 표현되지 않은 데이터 : 정보나 지식 추출불가합니다.

데이터 과학만으로 비즈니스 문제를 해결하기 어렵습니다. 비즈니스 문제를 해결하기 위해서는 비즈니스에 대한 이해(분석공학)와 데이터 이해(데이터 과학)이 동반되어야 합니다.

* 데이터 과학 : 원칙에 따른 기법들을 이용해 데이터로 부터 정보나 지식을 뽑아내는 학문입니다.

* 분석공학 : 사용가능한 데이터 도구기법에 기반하여 분석적으로 해결책 설계하는 것을 의미합니다.


아래의 사례를 통해 비즈니스 문제를 도구를 통해 하위문제로 분할하고 각 하위 문제를 유효성이 입증된 기법을 이용해 해결, 원래의 문제를 해결하기 위해 각 하위문제 해결책을 통합함으로써 도구가 어떻게 작동하는지 확인하도록 하겠습니다.

기댓값 프레임워크

데이터 분석 문제에 대한 생각을 구조화하는데 상당히 유용한 툴로 1.문제의 구조화 2.데이터에서 추출할 수 있는 분석 항목 3.다른 재원으로 부터 가져와야 할 분석 항목으로 구성되어 있습니다.


사례) 자선 단체 후원할 가능성이 높은 후원자 타겟팅

1. 우리의 목표는 기부 할 사람을 타겟팅 하는 것인가?

후원요청 편지에 응할 가능성이 높은 후원자를 타겟팅 → 응답의 형태가 다양 (기부자마다 기부 금액이 다를 수 있습니다.(A는 10만원 B는 1만원)

같은 비용을 소요한다면 기부 금액이 큰 고객을 타겟팅 하는 것이 효과적입니다.

2. 기부액을 최대화하는 것인가

편지를 보내는 비용이 1천원일 때 많은 이에게 편지를 보냈으나 대부분이 1천원씩만 기부할 경우, 실제 모금된 후원금은 거의 없는 상황이 됩니다. 결국 우리의 목표는 후원수익(비용을 공제한 순수 후원금)의 최대화일 것입니다. 즉, 모금된 전체 기부금 > 전체 편지 발송비용이 되는 것입니다.

이 경우, 기댓값 프레임워크를 사용하면 데이터 분석을 구조화 할 수 잇습니다.


타겟팅 기대 수익

 : 고객이 프로모션을 응할 때의 가치(기부금)

 : 고객이 프로모션을 응하지 않을 때의 가치

 : 고객이 프로모션을 응할 확률

(고객X가 기부할 확률*기부금 + 고객X가 기부하지 않을 확률*기부하지 않을 때 생기는 가치)

하지만 위의 방법은 고객이 동일한 후원금을 납부한다는 전제가 필요하므로, 고객마다 납부한 금액을 달리 적용할 수 있도록 공식을 수정해야만 합니다.


수정된 타겟팅 기대 수익

 : 고객X가 프로모션을 응할 때의 A가 기부하는 금액 - 후원을 요청하는 데 드는 비용

 : (고객X가 프로모션을 응하지 않을 때) 후원을 요청하는 데 드는 비용

 : 고객이 프로모션을 응할 확률

(고객X가 기부할 확률*고객X의 기부금 + 고객X가 기부하지 않을 확률*프로모션 비용)
,값은 회귀 분석 모델링을 통해서 구할 수 있습니다. 과거 이력 데이터를 분석, 대략적인 금액 확인 가능합니다. 단, 과거에 캠페인에 응했던 고객들에 대한 데이터만 활요앻야 합니다. 대부분의 고객들은 캠페인에 응하지 않으므로 기부할 금액이 0이 되는 경우가 발생할 수 있기 때문입니다. 결국 수익이 언제나 0보다 크기를 원하므로 다음과 같은 부등식을 유도할 수 있습니다.


수정된 타겟팅 기대 수익 적용

(고객X가 기부할 확률*고객X의 기부금 > 프로모션 비용)

즉, 예상 기부액이 기부 요청에 들어가는 비용보다 커야 합니다. 이렇듯 기댓값 프레임 워크는 복잡한 비즈니스 문제를 조금 더 단순한 하위문제로 분할하는데 도움이 될 뿐만 아니라, 이 하위 결과들을 어떻게 결합해야 하는 지 알려줍니다.



2017/07/03 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.12 텍스트 표현 및 마이닝(엔트로피와 n-그램)

2017/07/02 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.11 텍스트 표현 및 마이닝(IDF와 TFIDF)

2017/06/18 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.10 증거와 확률(베이즈규칙)

2017/06/17 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.9 좋은 모델은 무엇인가?(비용과 효과)

2017/06/12 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.8 좋은 모델은 무엇인가?(기댓값)

2017/06/10 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.7 좋은 모델은 무엇인가?(분류자평가)

2017/06/07 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.6 유사도

2017/06/03 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.5 과적합화

2017/05/28 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.4 데이터에 대한 모델 적합화(수학 함수를 이용한 회귀분석과 로지스틱 회귀분석)

2017/05/27 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.3 데이터에 대한 모델 적합화(수학 함수를 통한 분류)

2017/05/24 - [Cyong's 마케팅/Data Science] - [Data Science] Ch2. 트리구조모델

2017/03/25 - [Cyong's 마케팅/Data Science] - [Data Science] Ch1. 예측모델링_정보전달하는 속성 찾아내기


+ Recent posts