용어정리

P(C) : C가 발생할 확률

P(C|E) : 'E가 있을 확률' 또는 'E 조건 하에서 C가 발생할 확률' → 조건부 확률

결합학률 : 확률 p(A)와 p(B)를 알고 있을 때, A와 B 사건 모두 일어날 확률 → P(AB)

사후확률 : 증거를 확인한 후의 확률


 


베이즈규칙


위 식에서 B는 가설(Hypothesis) A는 증거(Evidence)라고 하면


분류에 사용하는 베이즈 규칙


p(C=c) : 계층의 사전 확률로서 어떤 증거를 확인하기 전에 계층에 할당하는 확률

p(E|C=c) : 표본을 c 계층으로 분류한 후에 증거 E의 특징을 볼 수 있는 가능성

p(E) : 증거가 나타날 가능성


E를  특징벡터로 생각 후 바로 적용하기 위해서는 를 계산하여 P(E|c)를 알아내야 합니다.


조건부 독립과 나이브 베이즈


A와 B가 C에 대해 조건부 독립적이라고 가정하면 (무조건 독립을 가정하는 경우보다 약한 가정)

분류에 사용하는 베이즈 규칙을 가져와서 생각해보면 나이브 베이즈 방정식을 생성할 수 있습니다.


여기서 P(E)는 계산할 필요가 없는 경우가 많습니다.


분류문제인 경우, 모든 c 계층 중에서 어느 계층에 대한 P(C|E)가 가장 큰지만 알면 되기 때문입니다. 이 경우에는 E는 모든 계층에 동일하므로 어느 계층의 분자가 큰지만 알면 됩니다.

또한, 실제 확률을 추정할 경우, E는 , 둘 중에 하나만 속하며 이므로 위 식을 베이즈 방정식에 대입하면


나이브 베이즈의 장점


나이브 베이즈는 간단한 분류자이기도 하지만 증거를 나타내는 특징 벡터를 계산에 모두 포함시킬 수 있기 때문에 저장 공간과 계산 시간 측면에서 매우 효율적입니다. 또한 독립성 가정이 잘못된 경우에도 분류 성능이 크게 떨어지지 않습니다. 마지막으로 점진자 학습자로서 새로운 훈련 데이터를 추가될 때 과거에 학습했던 사례는 다시 학습할 필요가 없습니다.


향상도 모델


향상도를 

라 정의하면

로 나타낼 수 있습니다.


2017/06/17 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.9 좋은 모델은 무엇인가?(비용과 효과)

2017/06/12 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.8 좋은 모델은 무엇인가?(기댓값)

2017/06/10 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.7 좋은 모델은 무엇인가?(분류자평가)

2017/06/07 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.6 유사도

2017/06/03 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.5 과적합화

2017/05/28 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.4 데이터에 대한 모델 적합화(수학 함수를 이용한 회귀분석과 로지스틱 회귀분석)

2017/05/27 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.3 데이터에 대한 모델 적합화(수학 함수를 통한 분류)

2017/05/24 - [Cyong's 마케팅/Data Science] - [Data Science] Ch2. 트리구조모델

2017/03/25 - [Cyong's 마케팅/Data Science] - [Data Science] Ch1. 예측모델링_정보전달하는 속성 찾아내기


비용과 효과


기댓값 계산 공식에 따라 기대효과를 계산하려면 각 결정 쌍에 대한 비용과 효과를 알아야 합니다. 각 결정 쌍에 대한 비용과 효과를 계산하면 혼동행렬과 같은 차원의 비용-효과 행렬이 만들어집니다.

확률은 데이터로부터 추정할 수 있지만, 비용이나 효과는 추정할 수 없는 경우가 있습니다. 일반적으로 비용과 효과는 구체적인 비즈니스 문제 측면에서 의사 결정의 영향을 분석한 외부 정보를 의존하여 구하게 됩니다. 대부분의 경우 문제 정의와 계산을 간단히 하기 위해 개인별 구체적인 비용대비 효과 대신 비용과 효과의 평균을 사용합니다. 

비용/효과 행렬이 만들어지면 확률 행렬에 항목 단위를 곱하고, 곱한 결과를 모두 더해 전체적인 기대수익을 계산합니다.

여러 모델의 정확도를 계산하는 것보다는 모델이 가져다주는 기댓값을 계산하면 좋은 모델을 찾아낼 수 있습니다.


평가, 기준선 성능, 데이터 투자의 영향


데이터 과학에서는 모델 성능을 비교할 합당한 기준선을 신중히 선택해야 합니다.

- 분류 모델의 경우 완전히 무작위로 판단하는 모델을 시뮬레이션해서 모델의 성능을 측정할 수 있습니다. 

시각화 프레임워크를 사용하면 무작위 분류 모델의 성능을 보여주는 기준선을 자연스럽게 나타낼 수 있습니다. 그리고 이 방법은 데이터를 탐사하는 초기 단계나 어려운 문제에 부딪혔을 때 유용합니다. 무작위 모델과 비교함으로써 데이터에서 추출할 정보가 있음을 입증할 수 있습니다. 


- 좋은 기준선은 분류작업의 경우 다수결 분류자가 좋은 기준선이 될 수 있습니다. 하지만 단순히 다수로 정확도를 높이는 것은 데이터 과학 측면에서 적절한 목표가 아닙니다. 분류에서의 다수결과 마찬가지로 회귀 분석의 경우에는 모집단의 평균이나 중간값을 사용할 수 있습니다. 


- 여러 종류들의 단순 평균값들을 조합해서 사용할 수 도 있습니다. 타겟값과 가장 잘 연결되는 변수 하나를 찾아내면 이 변수를 이용한 분류모델이나 회귀모델을 만들어 또 다른 기준선 성능을 제시할 수 있습니다.


- 트리유도 과정을 통해 의사결정  그루터기를 만들면 가장 정보 전달력이 뛰어난 정보 하나를 선택해 이 변수에 기반해 판단할 수 있습니다. 이 경우 일부 경우에 단 하나의 특징이 큰 영향력이 미치므로 이 경우가 단일 변수로 판단할 수 있는 지 아니면 얼마나 정확하게 판단하는 지 평가할 수 있습니다. 이 개념은 데이터는 투자할 가치가 있는 자산이라는 데이터 과학 기본원리에 연결할 수 있습니다 데이터 원천마다 사용하는 모델과 각 데이터 원천을 확보하는 데 들어가는 비용 등 데이터 원천을 구할 때 비용이 많이 들어갈 수 있는 데 비용과 효과를 프로젝트의 실행 여부를 결정할 수 있습니다. 그 관점에서 무조건적 도입을 경계하고 데이터 원천이 모델에 기여도가 낮다면 데이터 원천을 배제함으로써 비용절감 할 수 있습니다. 그리고 전문지식이나 견해들은 지식에 기반한 간단한 모델을 만들어 성능을 평가하는 것도 도움이 됩니다.



2017/06/12 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.8 좋은 모델은 무엇인가?(기댓값)

2017/06/10 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.7 좋은 모델은 무엇인가?(분류자평가)

2017/06/07 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.6 유사도

2017/06/03 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.5 과적합화

2017/05/28 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.4 데이터에 대한 모델 적합화(수학 함수를 이용한 회귀분석과 로지스틱 회귀분석)

2017/05/27 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.3 데이터에 대한 모델 적합화(수학 함수를 통한 분류)

2017/05/24 - [Cyong's 마케팅/Data Science] - [Data Science] Ch2. 트리구조모델

2017/03/25 - [Cyong's 마케팅/Data Science] - [Data Science] Ch1. 예측모델링_정보전달하는 속성 찾아내기


기댓값


기댓값은 핵심 분석 프레임워크 중 하나로 데이터 분석 문제에 대한 생각을 구조화하는 데 상당히 유용한 틀입니다. 앞서 말한대로, 기댓값은 문제를 구조화 하는 데 상당히 많이 사용되는데, 데이터에서 추출할 수 있는 분석 항목, 다른 재원으로부터 가져와야할 분석 항목을 결정하는 데 사용되기 때문입니다. 다수의 고객에 타겟 마케팅하는 경우나 다수 발생하는 문제를 진단하는 경우처럼 반복되는 작업을 한다고 가정하며 기대수익을 극대화 할 수 있습니다.


추가적인 설명을 덧붙이자면, 기댓값은 발생할 수 있는 각각의 결과에 대한 가치에 가중치(확률)를 곱한 것입니다. 예를 들어 기대수익 계산 시 확률이 높은 이익에 가충치를 높게, 확률이 낮은 이익에 가중치를 낮게 부여할 수 있습니다. 기댓값은 수학적으로는 평균값으로 생각할 수 있습니다. 평균을 아래의 예제처럼 각 변수의 확률과 값을 곱한 것으로 표현할 수 있기 때문입니다.


기댓값을 계산하는 일반적인 공식



기댓값을 사용한 분류자 사용


 : 고객이 프로모션을 응할 때의 가치

 : 고객이 프로모션을 응하지 않을 때의 가치

 : 고객이 프로모션을 응할 확률


기대값 프레임워크를 이용하면 문제의 핵심을 알 수 있습니다. 예를 들어, 어떤 하나의 프로모션을 통해서만 제품 프로모션을 진행한다고 가정합시다, 고객을 타겟으로 선정하지 않을 경우 기대효과는 0원, 고객은 제품을 20만원에 구입하며 제품생산 비용은 10만원, 모든 제반 비용은 1천원이라 가정하면 고객이 응답해 제품을 구입하는 경우 발생한 가치는 9만9천원이고 고객이 프로모션에 응하지 않을 때의 가치는 1천원의 비용이 듭니다. 이경우 수익이 날지, 손해가 날지 기댓값을 활용하면 판단할 수 있습니다. 타겟 마케팅 프로모션의 기댓값이 0보다 크면 수익이 난다고 판단할 수 있기 때문입니다.


이므로 고객이 프로모션에 응답할 확률이 1%보다 높을 경우 기대값이 0보다 커지므로 프로모션을 진행하자고 결정하면 됩니다.


기댓값을 사용한 분류자 평가


모델을 적용할 때 모델이 수행한 결정을 전체적으로 평가해야 하며, 여러 모델을 비교하는 것도 필요합니다. 이 때 각 모델을 평가 및 비교해야 하는데, 아래의 그림과 같이 모델을 유도하고 평과하는 과정을 거치며 기댓값을 계산하면 됩니다. 혼동행렬, 기대율, 비용/효과 정보 각각의 기댓값의 곱과 합을 통해 기댓값을 계산합니다.

출처 : Data Science for Business


오류율 계산


비즈니스 문제에서 기댓값 계산 시 확률을 어떻게 계산했는지에 대한 의문이 들 때 시험 데이터에 대해 결정한 확률은 오류율 및 적중률을 계산함으로써 혼동 행렬에서 합계로 추정할 수 있습니다. 혼동 행렬의 각 항목에는 예측과 실제 결과 데이터 조합에 해당하는 결정 횟수가 들어 있습니다. 이를 h는 가정, a를 실제 결과로 나타낸 count(h,a) 함수로 표현할 수 있습니다. 기댓값을 계산하기 위해 각 횟수count(h,a)를 전체 객체 수 T로 나누어 비율 p(h,a)로 바꿔줍니다.



2017/06/10 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.7 좋은 모델은 무엇인가?(분류자평가)

2017/06/07 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.6 유사도

2017/06/03 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.5 과적합화

2017/05/28 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.4 데이터에 대한 모델 적합화(수학 함수를 이용한 회귀분석과 로지스틱 회귀분석)

2017/05/27 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.3 데이터에 대한 모델 적합화(수학 함수를 통한 분류)

2017/05/24 - [Cyong's 마케팅/Data Science] - [Data Science] Ch2. 트리구조모델

2017/03/25 - [Cyong's 마케팅/Data Science] - [Data Science] Ch1. 예측모델링_정보전달하는 속성 찾아내기


+ Recent posts