용어정리

P(C) : C가 발생할 확률

P(C|E) : 'E가 있을 확률' 또는 'E 조건 하에서 C가 발생할 확률' → 조건부 확률

결합학률 : 확률 p(A)와 p(B)를 알고 있을 때, A와 B 사건 모두 일어날 확률 → P(AB)

사후확률 : 증거를 확인한 후의 확률


 


베이즈규칙


위 식에서 B는 가설(Hypothesis) A는 증거(Evidence)라고 하면


분류에 사용하는 베이즈 규칙


p(C=c) : 계층의 사전 확률로서 어떤 증거를 확인하기 전에 계층에 할당하는 확률

p(E|C=c) : 표본을 c 계층으로 분류한 후에 증거 E의 특징을 볼 수 있는 가능성

p(E) : 증거가 나타날 가능성


E를  특징벡터로 생각 후 바로 적용하기 위해서는 를 계산하여 P(E|c)를 알아내야 합니다.


조건부 독립과 나이브 베이즈


A와 B가 C에 대해 조건부 독립적이라고 가정하면 (무조건 독립을 가정하는 경우보다 약한 가정)

분류에 사용하는 베이즈 규칙을 가져와서 생각해보면 나이브 베이즈 방정식을 생성할 수 있습니다.


여기서 P(E)는 계산할 필요가 없는 경우가 많습니다.


분류문제인 경우, 모든 c 계층 중에서 어느 계층에 대한 P(C|E)가 가장 큰지만 알면 되기 때문입니다. 이 경우에는 E는 모든 계층에 동일하므로 어느 계층의 분자가 큰지만 알면 됩니다.

또한, 실제 확률을 추정할 경우, E는 , 둘 중에 하나만 속하며 이므로 위 식을 베이즈 방정식에 대입하면


나이브 베이즈의 장점


나이브 베이즈는 간단한 분류자이기도 하지만 증거를 나타내는 특징 벡터를 계산에 모두 포함시킬 수 있기 때문에 저장 공간과 계산 시간 측면에서 매우 효율적입니다. 또한 독립성 가정이 잘못된 경우에도 분류 성능이 크게 떨어지지 않습니다. 마지막으로 점진자 학습자로서 새로운 훈련 데이터를 추가될 때 과거에 학습했던 사례는 다시 학습할 필요가 없습니다.


향상도 모델


향상도를 

라 정의하면

로 나타낼 수 있습니다.


2017/06/17 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.9 좋은 모델은 무엇인가?(비용과 효과)

2017/06/12 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.8 좋은 모델은 무엇인가?(기댓값)

2017/06/10 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.7 좋은 모델은 무엇인가?(분류자평가)

2017/06/07 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.6 유사도

2017/06/03 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.5 과적합화

2017/05/28 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.4 데이터에 대한 모델 적합화(수학 함수를 이용한 회귀분석과 로지스틱 회귀분석)

2017/05/27 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.3 데이터에 대한 모델 적합화(수학 함수를 통한 분류)

2017/05/24 - [Cyong's 마케팅/Data Science] - [Data Science] Ch2. 트리구조모델

2017/03/25 - [Cyong's 마케팅/Data Science] - [Data Science] Ch1. 예측모델링_정보전달하는 속성 찾아내기


+ Recent posts