비용과 효과
기댓값 계산 공식에 따라 기대효과를 계산하려면 각 결정 쌍에 대한 비용과 효과를 알아야 합니다. 각 결정 쌍에 대한 비용과 효과를 계산하면 혼동행렬과 같은 차원의 비용-효과 행렬이 만들어집니다.
확률은 데이터로부터 추정할 수 있지만, 비용이나 효과는 추정할 수 없는 경우가 있습니다. 일반적으로 비용과 효과는 구체적인 비즈니스 문제 측면에서 의사 결정의 영향을 분석한 외부 정보를 의존하여 구하게 됩니다. 대부분의 경우 문제 정의와 계산을 간단히 하기 위해 개인별 구체적인 비용대비 효과 대신 비용과 효과의 평균을 사용합니다.
비용/효과 행렬이 만들어지면 확률 행렬에 항목 단위를 곱하고, 곱한 결과를 모두 더해 전체적인 기대수익을 계산합니다.
여러 모델의 정확도를 계산하는 것보다는 모델이 가져다주는 기댓값을 계산하면 좋은 모델을 찾아낼 수 있습니다.
평가, 기준선 성능, 데이터 투자의 영향
데이터 과학에서는 모델 성능을 비교할 합당한 기준선을 신중히 선택해야 합니다.
- 분류 모델의 경우 완전히 무작위로 판단하는 모델을 시뮬레이션해서 모델의 성능을 측정할 수 있습니다.
시각화 프레임워크를 사용하면 무작위 분류 모델의 성능을 보여주는 기준선을 자연스럽게 나타낼 수 있습니다. 그리고 이 방법은 데이터를 탐사하는 초기 단계나 어려운 문제에 부딪혔을 때 유용합니다. 무작위 모델과 비교함으로써 데이터에서 추출할 정보가 있음을 입증할 수 있습니다.
- 좋은 기준선은 분류작업의 경우 다수결 분류자가 좋은 기준선이 될 수 있습니다. 하지만 단순히 다수로 정확도를 높이는 것은 데이터 과학 측면에서 적절한 목표가 아닙니다. 분류에서의 다수결과 마찬가지로 회귀 분석의 경우에는 모집단의 평균이나 중간값을 사용할 수 있습니다.
- 여러 종류들의 단순 평균값들을 조합해서 사용할 수 도 있습니다. 타겟값과 가장 잘 연결되는 변수 하나를 찾아내면 이 변수를 이용한 분류모델이나 회귀모델을 만들어 또 다른 기준선 성능을 제시할 수 있습니다.
- 트리유도 과정을 통해 의사결정 그루터기를 만들면 가장 정보 전달력이 뛰어난 정보 하나를 선택해 이 변수에 기반해 판단할 수 있습니다. 이 경우 일부 경우에 단 하나의 특징이 큰 영향력이 미치므로 이 경우가 단일 변수로 판단할 수 있는 지 아니면 얼마나 정확하게 판단하는 지 평가할 수 있습니다. 이 개념은 데이터는 투자할 가치가 있는 자산이라는 데이터 과학 기본원리에 연결할 수 있습니다 데이터 원천마다 사용하는 모델과 각 데이터 원천을 확보하는 데 들어가는 비용 등 데이터 원천을 구할 때 비용이 많이 들어갈 수 있는 데 비용과 효과를 프로젝트의 실행 여부를 결정할 수 있습니다. 그 관점에서 무조건적 도입을 경계하고 데이터 원천이 모델에 기여도가 낮다면 데이터 원천을 배제함으로써 비용절감 할 수 있습니다. 그리고 전문지식이나 견해들은 지식에 기반한 간단한 모델을 만들어 성능을 평가하는 것도 도움이 됩니다.
2017/06/12 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.8 좋은 모델은 무엇인가?(기댓값)
2017/06/10 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.7 좋은 모델은 무엇인가?(분류자평가)
2017/06/07 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.6 유사도
2017/06/03 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.5 과적합화
2017/05/28 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.4 데이터에 대한 모델 적합화(수학 함수를 이용한 회귀분석과 로지스틱 회귀분석)
2017/05/27 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.3 데이터에 대한 모델 적합화(수학 함수를 통한 분류)
2017/05/24 - [Cyong's 마케팅/Data Science] - [Data Science] Ch2. 트리구조모델
2017/03/25 - [Cyong's 마케팅/Data Science] - [Data Science] Ch1. 예측모델링_정보전달하는 속성 찾아내기