용어정리

P(C) : C가 발생할 확률

P(C|E) : 'E가 있을 확률' 또는 'E 조건 하에서 C가 발생할 확률' → 조건부 확률

결합학률 : 확률 p(A)와 p(B)를 알고 있을 때, A와 B 사건 모두 일어날 확률 → P(AB)

사후확률 : 증거를 확인한 후의 확률


 


베이즈규칙


위 식에서 B는 가설(Hypothesis) A는 증거(Evidence)라고 하면


분류에 사용하는 베이즈 규칙


p(C=c) : 계층의 사전 확률로서 어떤 증거를 확인하기 전에 계층에 할당하는 확률

p(E|C=c) : 표본을 c 계층으로 분류한 후에 증거 E의 특징을 볼 수 있는 가능성

p(E) : 증거가 나타날 가능성


E를  특징벡터로 생각 후 바로 적용하기 위해서는 를 계산하여 P(E|c)를 알아내야 합니다.


조건부 독립과 나이브 베이즈


A와 B가 C에 대해 조건부 독립적이라고 가정하면 (무조건 독립을 가정하는 경우보다 약한 가정)

분류에 사용하는 베이즈 규칙을 가져와서 생각해보면 나이브 베이즈 방정식을 생성할 수 있습니다.


여기서 P(E)는 계산할 필요가 없는 경우가 많습니다.


분류문제인 경우, 모든 c 계층 중에서 어느 계층에 대한 P(C|E)가 가장 큰지만 알면 되기 때문입니다. 이 경우에는 E는 모든 계층에 동일하므로 어느 계층의 분자가 큰지만 알면 됩니다.

또한, 실제 확률을 추정할 경우, E는 , 둘 중에 하나만 속하며 이므로 위 식을 베이즈 방정식에 대입하면


나이브 베이즈의 장점


나이브 베이즈는 간단한 분류자이기도 하지만 증거를 나타내는 특징 벡터를 계산에 모두 포함시킬 수 있기 때문에 저장 공간과 계산 시간 측면에서 매우 효율적입니다. 또한 독립성 가정이 잘못된 경우에도 분류 성능이 크게 떨어지지 않습니다. 마지막으로 점진자 학습자로서 새로운 훈련 데이터를 추가될 때 과거에 학습했던 사례는 다시 학습할 필요가 없습니다.


향상도 모델


향상도를 

라 정의하면

로 나타낼 수 있습니다.


2017/06/17 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.9 좋은 모델은 무엇인가?(비용과 효과)

2017/06/12 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.8 좋은 모델은 무엇인가?(기댓값)

2017/06/10 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.7 좋은 모델은 무엇인가?(분류자평가)

2017/06/07 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.6 유사도

2017/06/03 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.5 과적합화

2017/05/28 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.4 데이터에 대한 모델 적합화(수학 함수를 이용한 회귀분석과 로지스틱 회귀분석)

2017/05/27 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.3 데이터에 대한 모델 적합화(수학 함수를 통한 분류)

2017/05/24 - [Cyong's 마케팅/Data Science] - [Data Science] Ch2. 트리구조모델

2017/03/25 - [Cyong's 마케팅/Data Science] - [Data Science] Ch1. 예측모델링_정보전달하는 속성 찾아내기


수학함수를 이용한 회귀분석


회귀분석 : 두 변수 사이의 관계에 '가장 근접한' 선형 관계를 찾아내는 것.

선형회귀분석 모델의 구조는 선형판별함수와 동일합니다.

(표준)선형회귀분석 : 모델을 데이터에 맞추기 위한 방법(오차를 줄여나가는 방법)

최소제곱회귀분석 : 오찻값의 제곱의 합계나 평균값을 최소화. 계산편리성으로 널리 사용됩니다. 하지만 민감하게 반응한다는 단점이 있습니다. 외곽의 데이터 객체가 선형함수를 상당히 왜곡시킬 수 있기 때문입니다. 최소제곱법, 또는 최소자승법, 최소제곱근사법, 최소자승근사법(method of least squares, least squares approximation)은 어떤 계의 해방정식을 근사적으로 구하는 방법으로, 근사적으로 구하려는 해와 실제 해의 오차의 제곱의 합이 최소가 되는 해를 구하는 방법으로  값을 정확하게 측정할 수 없는 경우에 유용하게 사용될 수 있으며, 특히 그 계의 방정식이 어떤 형태인지를 알고 있을 때 방정식의 상수 값들을 추정하는 데에 사용됩니다.


계층 확률 추정과 로지스틱 회귀분석


계층확률 추정 : 새로운 객체가 어떤 계층에 속할 확률을 추정하는 것입니다. 예를들어 금융, 통신 등의 분야에서의 사기사건 탐지하는 것으로 선형판별식으로 사기 당한 계좌나 거래를 찾습니다.

위험에 처할 가능성이 높은 확률을 추정할 수 있어야 함

로지스틱회귀분석 : 다른 목적함수를 선택해 계층 확률을 정확히 추정하는 모델을 만드는 절차

승산 : 사건이 일어날 가능성을 표현하는 또 다른 방법으로 선형함수 f(x)가 사건이 일어날 로그승산을 측정하는 도구로 사용됩니다.

ex ) 모델은 특징 벡터 x로 표현한 고객이 만료 후에 서비스를 해지할 것인지에 대한 로그 승산을 추정할 수 있습니다.

확률 추정에 있어 로지스틱 회귀 분석은 분류하기 위한 선형판별식이나 수치형 타겟값을 추정하기 위한 선형 회귀분석과 동일한 선형 모델 사용

로지스틱 회귀모델이 계산한 값은 계층에 속할 로그 승산입니다. 로그승산은 계층에 속할 확률로 변환할 수 있으므로, 로지스틱 회귀분석을 계층에 속할 확률모델과 똑같이 생각할 수 있습니다.


로지스틱 회귀분석 : 수학적 세부사항


사건이 발생할 확률 추정치 : 

사건이 발생하지 않을 확률 추정치 : 

g함수는 객체 x에 대한 특징이 주어졌을 때 모델 x의 실제 계층을 추정할 수 있는 확률 계산 일렬의 가중치(w)가 파라미터가 됩니다.

최고유망모델 : 합계값이 가장 높은 모델로 평균적으로 양성 데이터일 때 가장 높은 가능성을 가지고, 음성데이터일 때 가장 낮은 가능성을 가집니다.


사례 : 로지스틱 회귀분석과 트리유도 비교


공통점

분류트리와 선형 분류자 : 모두 선형 결정 경계 사용

차이점

분류트리 : 객체공간 축에 직교하는 선으로 나타나는 결정 경계를 사용, 하나의 속성만 선택 객체공간을 반복해서 분할해, 객체를 매우 작은 영역까지 잘라낼 수 있습니다.

선형분류자 : 결정 경계는 방향 제한이 없음. 전체 속성에 대한 가중치 조합 사용합니다. 단 하나의 결정 경계로 경계의 방향은 자유롭짖만 두개의 세그먼트로 분할해야 합니다.

특징의 차이로 주어진 데이터 세트에 어느 모델이 더 잘 맞는지는 사전에 판단하기 어렵습니다.


비선형 함수, 지원벡터기계(SVM), 신경망


함수에 더 복잡한 특징을 추가하면 실제로 선형함수로 비선형모델 표현이 가능합니다. 파라미터를 복잡한 비선형 함수에 맞추는 바업에 기반한 기술은 비선형 지원 벡터기계와 신경망 계열에 주로 사용됩니다.

비선형지원벡터기계 : 본질적으로 복잡한 항목을 추가해 선형모델을 데이터에 맞출 수 있게 해주는 기법을 체계화 한 것으로 다항식 커널로 비선형 지원벡터기계를 구현 할 수 있습니다.

커널함수 : SVM에 원래의 특징을 다른 특징 공간에 대응 시키는 함수입니다.

신경망 : 모델을 스택구조로 층층이 쌓는 방법입니다. 일반적으로 최상위 계층에서만 타겟 변숫값 사용합니다.

가장 아래 계층은 로지스틱회귀분석을 주로 사용하고 윗 계층은 아래계층에 대한 계산결과로 다른 모델 만듭니다.

적합화 함수에 기반해 목적함수 결정하고 최적화 절차를 통해 거대하고 복잡한 함수에 가장 적합한 파라미터를 알아낼 수 있습니다.

다만 범용적으로 적용하기 보다는 특정 훈련 데이터 세트에만 잘 맞게 됨



데이터에 대한 모델 적합화 요약


함수 적합화는 파라메트릭 함수 모델링을 뜻하며, 데이터 마이닝으로 적합화할 파라미터가 데이터 속성들의 가중치가 됩니다. 함수를 적합화를 위해 주로 동일한 선형모델 구조, 즉 속성값들의 가중치 합을 사용하며 선형모델링 기법에는 SVM, 로지스틱 회귀분석, 선형 회귀분석과 같은 선형 판별식을 사용합니다. 그러나 각 기법은 서로 다른 함수를 사용하기 때문에 차이가 날 수 있습니다.


데이터 모델링에 있어 상당히 다른 두 가치 기법 : 트리유도와 함수 적합화

모델을 평가할 수 있는 두 가지 기준 : 모델의 예측 성능과 정보성


동일한 데이터 세트에 대해 여러 모델을 만들어 보면 데이터에 대한 통찰력을 얻을 수 있습니다. 다만 모델을 데이터에 맞추다 보면 데이터 세트에 우연히 들어간 구조를 발견하게 되는 데 이를 과적합화라고 부릅니다.


2017/05/27 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.3 데이터에 대한 모델 적합화(수학 함수를 통한 분류)

2017/05/24 - [Cyong's 마케팅/Data Science] - [Data Science] Ch2. 트리구조모델

2017/03/25 - [Cyong's 마케팅/Data Science] - [Data Science] Ch1. 예측모델링_정보전달하는 속성 찾아내기


+ Recent posts