용어정리
P(C) : C가 발생할 확률
P(C|E) : 'E가 있을 확률' 또는 'E 조건 하에서 C가 발생할 확률' → 조건부 확률
결합학률 : 확률 p(A)와 p(B)를 알고 있을 때, A와 B 사건 모두 일어날 확률 → P(AB)
사후확률 : 증거를 확인한 후의 확률
베이즈규칙
위 식에서 B는 가설(Hypothesis) A는 증거(Evidence)라고 하면
분류에 사용하는 베이즈 규칙
p(C=c) : 계층의 사전 확률로서 어떤 증거를 확인하기 전에 계층에 할당하는 확률
p(E|C=c) : 표본을 c 계층으로 분류한 후에 증거 E의 특징을 볼 수 있는 가능성
p(E) : 증거가 나타날 가능성
E를 특징벡터로 생각 후 바로 적용하기 위해서는 를 계산하여 P(E|c)를 알아내야 합니다.
조건부 독립과 나이브 베이즈
A와 B가 C에 대해 조건부 독립적이라고 가정하면 (무조건 독립을 가정하는 경우보다 약한 가정)
분류에 사용하는 베이즈 규칙을 가져와서 생각해보면 나이브 베이즈 방정식을 생성할 수 있습니다.
여기서 P(E)는 계산할 필요가 없는 경우가 많습니다.
분류문제인 경우, 모든 c 계층 중에서 어느 계층에 대한 P(C|E)가 가장 큰지만 알면 되기 때문입니다. 이 경우에는 E는 모든 계층에 동일하므로 어느 계층의 분자가 큰지만 알면 됩니다.
또한, 실제 확률을 추정할 경우, E는 , 둘 중에 하나만 속하며 이므로 위 식을 베이즈 방정식에 대입하면
나이브 베이즈의 장점
나이브 베이즈는 간단한 분류자이기도 하지만 증거를 나타내는 특징 벡터를 계산에 모두 포함시킬 수 있기 때문에 저장 공간과 계산 시간 측면에서 매우 효율적입니다. 또한 독립성 가정이 잘못된 경우에도 분류 성능이 크게 떨어지지 않습니다. 마지막으로 점진자 학습자로서 새로운 훈련 데이터를 추가될 때 과거에 학습했던 사례는 다시 학습할 필요가 없습니다.
향상도 모델
향상도를
라 정의하면
로 나타낼 수 있습니다.
2017/06/17 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.9 좋은 모델은 무엇인가?(비용과 효과)
2017/06/12 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.8 좋은 모델은 무엇인가?(기댓값)
2017/06/10 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.7 좋은 모델은 무엇인가?(분류자평가)
2017/06/07 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.6 유사도
2017/06/03 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.5 과적합화
2017/05/27 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.3 데이터에 대한 모델 적합화(수학 함수를 통한 분류)
2017/05/24 - [Cyong's 마케팅/Data Science] - [Data Science] Ch2. 트리구조모델
2017/03/25 - [Cyong's 마케팅/Data Science] - [Data Science] Ch1. 예측모델링_정보전달하는 속성 찾아내기
'Cyong's 마케팅 > Data Science' 카테고리의 다른 글
[Data Science] Ch.12 텍스트 표현 및 마이닝(엔트로피와 n-그램) (0) | 2017.07.03 |
---|---|
[Data Science] Ch.11 텍스트 표현 및 마이닝(IDF와 TFIDF) (0) | 2017.07.02 |
[Data Science] Ch.9 좋은 모델은 무엇인가?(비용과 효과) (0) | 2017.06.17 |
[Data Science] Ch.8 좋은 모델은 무엇인가?(기댓값) (0) | 2017.06.12 |
[Data Science] Ch.7 좋은 모델은 무엇인가?(분류자평가) (0) | 2017.06.10 |