모델, 유도, 예측


모델이란 목적을 달성하기 위해 실세계를 명확하, 단순화하여 일정한 규칙으로 표현 한 것입니다. 즉, 확률함수로서 특징을 입력받아 타겟 변수값을 추정하는 것입니다. 쉽게 설명하지면 경제학에서의 '수요공급곡선'은 수요와 공급에 대한 관계를 단순하게 표현하기 위해 만들어진 모델입니다. 


모델링이란 속성 또는 특징와 같은 일련의 변수와 타겟 변수라고 불리는 사전에 정의한 변수간의 관계를 보여주는 모델을 만드는 행위를 말합니다. 


예측이란 발생할 일이나 모르는 값을 추정하는 것인데 , 예측 모델(어떤 값을 예측하기 위해 일정한 규칙으로 표현한 공식), 예측 모델링을 통해 예측을 합니다.


감독 세분화 (Supervised Approach)


감독방법으로 데이터에서 패턴을 만드는 방법에 대해 생각해보면 타겟변수를 기준으로 전체 데이터를 유사한 값을 가진 세그먼트로 분할하는 방법이 있다. 타겟값은 모르지만 알려진 변숫값으로 분할 한다면 이 세그먼트는 타겟 변숫값을 예측하는데 사용될 수 있다. 그리고 두드러진 세그먼트를 자동으로 뽑아내기 위해서는 정보를 전달하는 속성을 알아보고 이 기법을 반복 적용해 어떻게 감독 세분화하는지를 알아야 한다.


정보를 전달하는 속성의 선택


2진 분류인 타겟 변수값(yes 또는 no)을 생각해봅시다. 사람들 중 대손상각 여부와 여러 속성을 데이터로 하면 어느 세그먼트에 속한 그룹원이 다른 세그먼트 그룹원보다 상각률이 높은지 낮은지 예측할 수 있습니다.


그러나 기술적으로 복잡한 문제가 많습니다.


a. 그룹을 완전히 분리하는 속성은 거의 없다.

b. 3개 이상의 값을 가진 속성도 많다.

c. 수치값을 가지는 속성들도 많다.


이러한 문제를 해결하기 위해 순도에 기반한 여러 공식들이 존재합니다.


가장 널리 사용되는 분할 기준은 정보증가량(IG)이라고 부릅니다.


정보증가량(Information Gain, IG)와 엔트로피(entropy)


정보증가량은 엔트로피라고 불리는 순도에 기반합니다. 엔트로피는 어떤 집합에 적용해 무질서의 정도를 측정하는 것입니다. 뒤죽박죽 섞인 정보일수록 엔트로피가 높습니다.


정보의 엔트로피를 구하는 공식은 아래와 같습니다.

                         

위 식에서 각 는 i 번째 속성의 확률을 의미합니다.

즉, 인 경우 100%의 확률로 모든 원소가 i번째 속성을 가지는 것을 의미하고 인 경우에는 i번째 속성을 가진 원소가 하나도 존재하지 않는 것을 의미합니다.

엔트로피는 0일 경우 무질서 정도가 최소이고 1일 경우 무질서 정도가 최대라 할 수 있다.


분할, 분류를 통해 엔트로피가 많이 줄어들 수록 좋은 분할이라고 말할 수 있을 겁니다. 어떤 속성에 따라 분류하면 전체그룹의 엔트로피가 개선되는지 추정할 수 있도록 나타내주는 수치가 IG입니다.


정보증가량를 구하는 공식은 아래와 같습니다.


위 식에서 는 분할 전 집합이고 는 분할 후 i번째 집합을 의미합니다.


정보증가량으로 판단할 때에는 분할 후 집합이 완전히 순수할 필요는 없으며, 분할한 후의 집합의 개수에 상관없이 적용할 수 있습니다. 또한 분할 후 집합의 크기를 고려해 가중치를 조절할 수도 있습니다.


하지만 기술적으로 너무 다양한 값을 가질 수 있는 속성에 대해서는 문제가 발생할 수 도 있습니다. 같은 속성을 기준으로 세분화하면 IG는 상당히 늘어나지만 예측이 난해해지는 과적합화(Over-fitting)가 발생할 수 도 있습니다.


타겟변수가 수치형일 경우에는 수치형값의 불순도를 측정하는 방법인 분산을 이용합니다. 즉, 수치형 타겟값을 세분화하려면 가중치 평균의 분산이 가장 많이 줄어드는 값을 선택하면 됩니다.


IG을 증가시키는 속성선택


구체적인 데이터 마이닝을 위해선 속성과 타겟변수를 가진 객체가 담겨있는 데이터세트를 분석해 타겟변수를 추정하는데 필요한 정보를 가장 많이 전달하는 속성을 결정해야 합니다. 그리고 과적합화를 피하기 위해 데이터 세트에서 타겟변수를 예측할 때에는 데이터마이닝 해야 할 속성이 너무 많은 것은 아닌지 전혀 쓸모 없는 것이 있는 것은 아닌지 의심해봐야 합니다.

+ Recent posts