기댓값


기댓값은 핵심 분석 프레임워크 중 하나로 데이터 분석 문제에 대한 생각을 구조화하는 데 상당히 유용한 틀입니다. 앞서 말한대로, 기댓값은 문제를 구조화 하는 데 상당히 많이 사용되는데, 데이터에서 추출할 수 있는 분석 항목, 다른 재원으로부터 가져와야할 분석 항목을 결정하는 데 사용되기 때문입니다. 다수의 고객에 타겟 마케팅하는 경우나 다수 발생하는 문제를 진단하는 경우처럼 반복되는 작업을 한다고 가정하며 기대수익을 극대화 할 수 있습니다.


추가적인 설명을 덧붙이자면, 기댓값은 발생할 수 있는 각각의 결과에 대한 가치에 가중치(확률)를 곱한 것입니다. 예를 들어 기대수익 계산 시 확률이 높은 이익에 가충치를 높게, 확률이 낮은 이익에 가중치를 낮게 부여할 수 있습니다. 기댓값은 수학적으로는 평균값으로 생각할 수 있습니다. 평균을 아래의 예제처럼 각 변수의 확률과 값을 곱한 것으로 표현할 수 있기 때문입니다.


기댓값을 계산하는 일반적인 공식



기댓값을 사용한 분류자 사용


 : 고객이 프로모션을 응할 때의 가치

 : 고객이 프로모션을 응하지 않을 때의 가치

 : 고객이 프로모션을 응할 확률


기대값 프레임워크를 이용하면 문제의 핵심을 알 수 있습니다. 예를 들어, 어떤 하나의 프로모션을 통해서만 제품 프로모션을 진행한다고 가정합시다, 고객을 타겟으로 선정하지 않을 경우 기대효과는 0원, 고객은 제품을 20만원에 구입하며 제품생산 비용은 10만원, 모든 제반 비용은 1천원이라 가정하면 고객이 응답해 제품을 구입하는 경우 발생한 가치는 9만9천원이고 고객이 프로모션에 응하지 않을 때의 가치는 1천원의 비용이 듭니다. 이경우 수익이 날지, 손해가 날지 기댓값을 활용하면 판단할 수 있습니다. 타겟 마케팅 프로모션의 기댓값이 0보다 크면 수익이 난다고 판단할 수 있기 때문입니다.


이므로 고객이 프로모션에 응답할 확률이 1%보다 높을 경우 기대값이 0보다 커지므로 프로모션을 진행하자고 결정하면 됩니다.


기댓값을 사용한 분류자 평가


모델을 적용할 때 모델이 수행한 결정을 전체적으로 평가해야 하며, 여러 모델을 비교하는 것도 필요합니다. 이 때 각 모델을 평가 및 비교해야 하는데, 아래의 그림과 같이 모델을 유도하고 평과하는 과정을 거치며 기댓값을 계산하면 됩니다. 혼동행렬, 기대율, 비용/효과 정보 각각의 기댓값의 곱과 합을 통해 기댓값을 계산합니다.

출처 : Data Science for Business


오류율 계산


비즈니스 문제에서 기댓값 계산 시 확률을 어떻게 계산했는지에 대한 의문이 들 때 시험 데이터에 대해 결정한 확률은 오류율 및 적중률을 계산함으로써 혼동 행렬에서 합계로 추정할 수 있습니다. 혼동 행렬의 각 항목에는 예측과 실제 결과 데이터 조합에 해당하는 결정 횟수가 들어 있습니다. 이를 h는 가정, a를 실제 결과로 나타낸 count(h,a) 함수로 표현할 수 있습니다. 기댓값을 계산하기 위해 각 횟수count(h,a)를 전체 객체 수 T로 나누어 비율 p(h,a)로 바꿔줍니다.



2017/06/10 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.7 좋은 모델은 무엇인가?(분류자평가)

2017/06/07 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.6 유사도

2017/06/03 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.5 과적합화

2017/05/28 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.4 데이터에 대한 모델 적합화(수학 함수를 이용한 회귀분석과 로지스틱 회귀분석)

2017/05/27 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.3 데이터에 대한 모델 적합화(수학 함수를 통한 분류)

2017/05/24 - [Cyong's 마케팅/Data Science] - [Data Science] Ch2. 트리구조모델

2017/03/25 - [Cyong's 마케팅/Data Science] - [Data Science] Ch1. 예측모델링_정보전달하는 속성 찾아내기


데이터 과학과 데이터 마이닝의 목적


데이터 과학과 데이터 마이닝의 경우 일이 진행됨에 따라 목적을 간과하는 경우가 많습니다. 데이터 마이닝의 목적과 결과를 일치시키지 못하는 경우, 통계 데이터를 명확하게 이해하지 못한 채 보고를 한다든가, 마이닝 결과의 성능을 의미있게 측정하는 방법을 찾지 못하는 경우가 생기게 됩니다. 하지만 대부분 데이터 마이닝의 경우 충분히 갖춰지지 않은 시스템 하에 진행되고, 데이터를 구할 때 상당히 많은 비용이 들게 되며, 인과 관계 평가가 어렵기 때문에 일치하지 않을 수 있는 요인을 감안해야 합니다. 하지만 그럼에도 진정으로 측정하려는 것이 무엇인지 주의 깊게 생각해야 하는 것은 절대 놓쳐서는 안됩니다.
목적에 맞는 데이터 대신 다른 것을 선택해야하는 경우가 생긴다면 데이터 분석적인 사고를 기반으로 그 데이터를 선택해야 할 것입니다.

모델을 평가하는 방법을 종합적으로 설명하기는 어렵습니다. 단 하나의 평가 척도를 제공하기가 불가능하기 때문입니다. 하지만 평가하는 동안 발생하는 문제나 이를 처리하는 프레임워크 및 기법에는 공통점이 있기 때문에 이러한 기법들을 잘 활용하면 평가 프레임워크와 기법은 문제를 정의하는 단계에서부터 데이터 분석적으로 생각하도록 하여 기업을 조직화하는 데에도 도움이 됩니다.


분류자 평가


해로운 양성과 무해한 음성


양성, 음성에 대해 가장 많이 듣는 영역이 의료쪽이기 때문에 일반적으로 우리는 양성이라고 하면 나쁜 결과를 의미하고 주의를 기울일 필요가 있는 것으로 생각됩니다. 반대로 음성이라 하면 보통이거나 좋은 결과라 생각되고 정상적인 결과라 생각하게 합니다. 암 판정 검사이나 에이즈 검사 등 의료 검사에서 양성판정을 받는다면 좋지 않은 일이기 때문입니다. 하지만 실제로 양성, 음성은 각각 Yes, No를 의미한다고 생각하는 것이 좋습니다.


혼동행렬


분류 정확도는 양성, 음성으로 표현되기 때문에 측정하기 쉬워 널리 사용되는 척도입니다. 하지만 단일 항목에 대한 판단으로 너무 단순하여 실제 비즈니스 문제에 적용하기 부적합합니다. 때문에 분류자가 올바르게 판단한 횟수와 잘못 판단한 횟수를 분할하고 셀 수 있는 혼동행렬을 사용해서 정확도를 측정할 필요가 있습니다.

분류자를 제대로 평가하기 위해서는 혼동 행렬의 개념을 제대로 숙지할 필요가 있습니다. 혼동행렬은 일종의 분할표(N*N행렬)입니다. 분류자의 결정을 떼어내어 다른 계층과 어떻게 혼동되는 지를 명확히 보여줍니다. 이렇게 해서 서로 다른 오류를 따로 다룹니다. 예를 들어 실제계층을 p(positive), n(negative)로 나누고 모델예측 계층을 Y,N으로 나눕니다.


편중된 계층 문제


한 계층에 속한 개체 수가 매우 적은 경우에는 계층 편중 현상이 발생하게 됩니다. 이럴 경우 큰 모집합에서 상대적으로 적은 비정상적인 객체들을 찾기 위해 정상적인 객체들을 걸러내는 방법을 사용하게 됩니다. 이러한 방법은 결합이 있는 부품을 찾을 때 활용할 수 있습니다. 하지만 이 방법은 정확도는 좋은 측정 방법이 아닙니다. 계층 분배가 편중되어 있을수록 정확도에 기반한 평가는 실효성이 없어지게 됩니다.


비용대비 효과의 불균형 문제


분류 정확도의 또 하나의 문제는 위양성과 위음성의 오류를 구분하지 못한다는 것입니다. 오류 횟수로 두 에러를 평가하지만 분류 결과가 미치는 심각성은 서로 다릅니다. 쉬운 예로, 병에 걸리지 않은 환자에게 병에 걸렸다고 오진하는 경우입니다. 이 경우 위양성 오류인데요, 결과적으로 환자는 추가검사 등을 통해 진단이 잘못되었음을 알게 될 것입니다. 물론 환자의 생명을 위협하지는 않겠지만 불편함과 스트레스를 일으키며 비용을 들게 하는 문제가 발생합니다. 반대의 경우는 병에 걸린 환자가 병에 걸리지 않았다고 오진하는 경우인데요, 이 경우에는 병에 대한 조기 발견할 기회를 놓치게 하고 더 심각한 결과를 초래할 수 있습니다.  때문에 분류자의 결정에 따른 비용 또는 효과를 추정해야할 필요가 있습니다. 추정한 결과의 합계를 구하면 분류자를 통해 얻을 수 있는 기대 수익을 예측할 수 있습니다.



2017/06/07 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.6 유사도

2017/06/03 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.5 과적합화

2017/05/28 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.4 데이터에 대한 모델 적합화(수학 함수를 이용한 회귀분석과 로지스틱 회귀분석)

2017/05/27 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.3 데이터에 대한 모델 적합화(수학 함수를 통한 분류)

2017/05/24 - [Cyong's 마케팅/Data Science] - [Data Science] Ch2. 트리구조모델

2017/03/25 - [Cyong's 마케팅/Data Science] - [Data Science] Ch1. 예측모델링_정보전달하는 속성 찾아내기


+ Recent posts