D.M.숑스토리

[Data Science] Ch.9 좋은 모델은 무엇인가?(비용과 효과)

2017. 6. 17. 12:11

비용과 효과

기댓값 계산 공식에 따라 기대효과를 계산하려면 각 결정 쌍에 대한 비용과 효과를 알아야 합니다. 각 결정 쌍에 대한 비용과 효과를 계산하면 혼동행렬과 같은 차원의 비용-효과 행렬이 만들어집니다.

확률은 데이터로부터 추정할 수 있지만, 비용이나 효과는 추정할 수 없는 경우가 있습니다. 일반적으로 비용과 효과는 구체적인 비즈니스 문제 측면에서 의사 결정의 영향을 분석한 외부 정보를 의존하여 구하게 됩니다. 대부분의 경우 문제 정의와 계산을 간단히 하기 위해 개인별 구체적인 비용대비 효과 대신 비용과 효과의 평균을 사용합니다.

비용/효과 행렬이 만들어지면 확률 행렬에 항목 단위를 곱하고, 곱한 결과를 모두 더해 전체적인 기대수익을 계산합니다.

여러 모델의 정확도를 계산하는 것보다는 모델이 가져다주는 기댓값을 계산하면 좋은 모델을 찾아낼 수 있습니다.

평가, 기준선 성능, 데이터 투자의 영향

데이터 과학에서는 모델 성능을 비교할 합당한 기준선을 신중히 선택해야 합니다.

- 분류 모델의 경우 완전히 무작위로 판단하는 모델을 시뮬레이션해서 모델의 성능을 측정할 수 있습니다.

시각화 프레임워크를 사용하면 무작위 분류 모델의 성능을 보여주는 기준선을 자연스럽게 나타낼 수 있습니다. 그리고 이 방법은 데이터를 탐사하는 초기 단계나 어려운 문제에 부딪혔을 때 유용합니다. 무작위 모델과 비교함으로써 데이터에서 추출할 정보가 있음을 입증할 수 있습니다.

- 좋은 기준선은 분류작업의 경우 다수결 분류자가 좋은 기준선이 될 수 있습니다. 하지만 단순히 다수로 정확도를 높이는 것은 데이터 과학 측면에서 적절한 목표가 아닙니다. 분류에서의 다수결과 마찬가지로 회귀 분석의 경우에는 모집단의 평균이나 중간값을 사용할 수 있습니다.

- 여러 종류들의 단순 평균값들을 조합해서 사용할 수 도 있습니다. 타겟값과 가장 잘 연결되는 변수 하나를 찾아내면 이 변수를 이용한 분류모델이나 회귀모델을 만들어 또 다른 기준선 성능을 제시할 수 있습니다.

- 트리유도 과정을 통해 의사결정 그루터기를 만들면 가장 정보 전달력이 뛰어난 정보 하나를 선택해 이 변수에 기반해 판단할 수 있습니다. 이 경우 일부 경우에 단 하나의 특징이 큰 영향력이 미치므로 이 경우가 단일 변수로 판단할 수 있는 지 아니면 얼마나 정확하게 판단하는 지 평가할 수 있습니다. 이 개념은 데이터는 투자할 가치가 있는 자산이라는 데이터 과학 기본원리에 연결할 수 있습니다 데이터 원천마다 사용하는 모델과 각 데이터 원천을 확보하는 데 들어가는 비용 등 데이터 원천을 구할 때 비용이 많이 들어갈 수 있는 데 비용과 효과를 프로젝트의 실행 여부를 결정할 수 있습니다. 그 관점에서 무조건적 도입을 경계하고 데이터 원천이 모델에 기여도가 낮다면 데이터 원천을 배제함으로써 비용절감 할 수 있습니다. 그리고 전문지식이나 견해들은 지식에 기반한 간단한 모델을 만들어 성능을 평가하는 것도 도움이 됩니다.

2017/06/12 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.8 좋은 모델은 무엇인가?(기댓값)

2017/06/10 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.7 좋은 모델은 무엇인가?(분류자평가)

2017/06/07 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.6 유사도

2017/06/03 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.5 과적합화

2017/05/28 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.4 데이터에 대한 모델 적합화(수학 함수를 이용한 회귀분석과 로지스틱 회귀분석)

2017/05/27 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.3 데이터에 대한 모델 적합화(수학 함수를 통한 분류)

2017/05/24 - [Cyong's 마케팅/Data Science] - [Data Science] Ch2. 트리구조모델

2017/03/25 - [Cyong's 마케팅/Data Science] - [Data Science] Ch1. 예측모델링_정보전달하는 속성 찾아내기

'Cyong's 마케팅 > Data Science' 카테고리의 다른 글

[Data Science] Ch.11 텍스트 표현 및 마이닝(IDF와 TFIDF) (0)	2017.07.02
[Data Science] Ch.10 증거와 확률(베이즈규칙) (0)	2017.06.18
[Data Science] Ch.8 좋은 모델은 무엇인가?(기댓값) (0)	2017.06.12
[Data Science] Ch.7 좋은 모델은 무엇인가?(분류자평가) (0)	2017.06.10
[Data Science] Ch.6 유사도 (0)	2017.06.07

[Data Science] Ch.8 좋은 모델은 무엇인가?(기댓값)

2017. 6. 12. 21:27

기댓값

기댓값은 핵심 분석 프레임워크 중 하나로 데이터 분석 문제에 대한 생각을 구조화하는 데 상당히 유용한 틀입니다. 앞서 말한대로, 기댓값은 문제를 구조화 하는 데 상당히 많이 사용되는데, 데이터에서 추출할 수 있는 분석 항목, 다른 재원으로부터 가져와야할 분석 항목을 결정하는 데 사용되기 때문입니다. 다수의 고객에 타겟 마케팅하는 경우나 다수 발생하는 문제를 진단하는 경우처럼 반복되는 작업을 한다고 가정하며 기대수익을 극대화 할 수 있습니다.

추가적인 설명을 덧붙이자면, 기댓값은 발생할 수 있는 각각의 결과에 대한 가치에 가중치(확률)를 곱한 것입니다. 예를 들어 기대수익 계산 시 확률이 높은 이익에 가충치를 높게, 확률이 낮은 이익에 가중치를 낮게 부여할 수 있습니다. 기댓값은 수학적으로는 평균값으로 생각할 수 있습니다. 평균을 아래의 예제처럼 각 변수의 확률과 값을 곱한 것으로 표현할 수 있기 때문입니다.

기댓값을 계산하는 일반적인 공식

기댓값을 사용한 분류자 사용

: 고객이 프로모션을 응할 때의 가치

: 고객이 프로모션을 응하지 않을 때의 가치

: 고객이 프로모션을 응할 확률

기대값 프레임워크를 이용하면 문제의 핵심을 알 수 있습니다. 예를 들어, 어떤 하나의 프로모션을 통해서만 제품 프로모션을 진행한다고 가정합시다, 고객을 타겟으로 선정하지 않을 경우 기대효과는 0원, 고객은 제품을 20만원에 구입하며 제품생산 비용은 10만원, 모든 제반 비용은 1천원이라 가정하면 고객이 응답해 제품을 구입하는 경우 발생한 가치는 9만9천원이고 고객이 프로모션에 응하지 않을 때의 가치는 1천원의 비용이 듭니다. 이경우 수익이 날지, 손해가 날지 기댓값을 활용하면 판단할 수 있습니다. 타겟 마케팅 프로모션의 기댓값이 0보다 크면 수익이 난다고 판단할 수 있기 때문입니다.

이므로 고객이 프로모션에 응답할 확률이 1%보다 높을 경우 기대값이 0보다 커지므로 프로모션을 진행하자고 결정하면 됩니다.

기댓값을 사용한 분류자 평가

모델을 적용할 때 모델이 수행한 결정을 전체적으로 평가해야 하며, 여러 모델을 비교하는 것도 필요합니다. 이 때 각 모델을 평가 및 비교해야 하는데, 아래의 그림과 같이 모델을 유도하고 평과하는 과정을 거치며 기댓값을 계산하면 됩니다. 혼동행렬, 기대율, 비용/효과 정보 각각의 기댓값의 곱과 합을 통해 기댓값을 계산합니다.

출처 : Data Science for Business

오류율 계산

비즈니스 문제에서 기댓값 계산 시 확률을 어떻게 계산했는지에 대한 의문이 들 때 시험 데이터에 대해 결정한 확률은 오류율 및 적중률을 계산함으로써 혼동 행렬에서 합계로 추정할 수 있습니다. 혼동 행렬의 각 항목에는 예측과 실제 결과 데이터 조합에 해당하는 결정 횟수가 들어 있습니다. 이를 h는 가정, a를 실제 결과로 나타낸 count(h,a) 함수로 표현할 수 있습니다. 기댓값을 계산하기 위해 각 횟수count(h,a)를 전체 객체 수 T로 나누어 비율 p(h,a)로 바꿔줍니다.

2017/06/10 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.7 좋은 모델은 무엇인가?(분류자평가)

2017/06/07 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.6 유사도

2017/06/03 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.5 과적합화

2017/05/28 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.4 데이터에 대한 모델 적합화(수학 함수를 이용한 회귀분석과 로지스틱 회귀분석)

2017/05/27 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.3 데이터에 대한 모델 적합화(수학 함수를 통한 분류)

2017/05/24 - [Cyong's 마케팅/Data Science] - [Data Science] Ch2. 트리구조모델

2017/03/25 - [Cyong's 마케팅/Data Science] - [Data Science] Ch1. 예측모델링_정보전달하는 속성 찾아내기

'Cyong's 마케팅 > Data Science' 카테고리의 다른 글

[Data Science] Ch.10 증거와 확률(베이즈규칙) (0)	2017.06.18
[Data Science] Ch.9 좋은 모델은 무엇인가?(비용과 효과) (0)	2017.06.17
[Data Science] Ch.7 좋은 모델은 무엇인가?(분류자평가) (0)	2017.06.10
[Data Science] Ch.6 유사도 (0)	2017.06.07
[Data Science] Ch.5 과적합화 (0)	2017.06.03

[노량진/맛집/포차/가성비갑]오감만족

2017. 6. 11. 09:32

노량진에서 알만한 사람은 다 안다는 가성비 갑!! 포차
양도 많고 맛도 좋은 술집 오감만족에 다녀왔습니다

워낙 인기가 좋으니 기다리는 사람들도 많고 시끌벅적해서 주민신고가 자주 되나봐요ㅠㅠ

가격표를 이쁘게 찍어보려했으나..
잘 안나왔네요ㅠ
음...소주 3000원입니다:D

북적북적한 내부 풍경이에요

오감만족에는 음식 외에도 눈길을 끄는 여러 요소들이 있는데요~~
술에 관련된 재밌는 글들이 여기저기 인테리어 되어 있습니다 ㅎ

그 중에서도 가장 눈길을 끌었던 건 바로 처음처럼 라벨이었어요

많은 고시생, 공시생들이 꿈을 키워나가는 성지와도 같은 곳이라 그런지 소주 라벨도 다르더라구요
각자의 꿈이 라벨링 되어 있는 술을 마시며 위안을 삼고 힘을 내봅시다^^
공무원처럼...경찰처럼...행정처럼...소방처럼...연인처럼...!

저희는 오감만족의 대표메뉴인 김치삼겹(12,000원)을 시켰어요
아 이건 두부김치랑 다른 메뉴에요 참고하세요^^

평소 먹었던 두부김치와는 다르게 베이컨이 들어가 색다른 맛을 느낄 수 있습니다

짜지 않아서 많이 먹을 수 있어요^^

떡갈비도 많이 드시던데..두명이서 가서 김치삼겹 겨우 클리어하고 왔습니다ㅠㅠ
이것저것 다 먹어보고 싶었는데 아쉬울따름이네요ㅠ
김치삼겹에 소주4병 그리고 도시락1개시켜서 나온 금액이 총 25,500원 밖에 안나왔어요
우왕 굳:D

'Cyong's 일상' 카테고리의 다른 글

강릉 닭볶음탕 맛집 정아네맛집 (0)	2017.06.25
논현동 차돌삼합 맛집 진대감 (0)	2017.06.24
[논현동/돈까스/맛집]가나 돈까스의 집 (0)	2017.06.08
[마포카페/가성비갑]경성커피 (1)	2017.06.04
옥주현, 박은태 주연의 뮤지컬 메디슨 카운티의 다리 (0)	2017.05.31

PREV 1 ···12 13 14 15 16 17 18 ···70 NEXT

D.M.숑스토리

[Data Science] Ch.9 좋은 모델은 무엇인가?(비용과 효과)

'Cyong's 마케팅 > Data Science' 카테고리의 다른 글

[Data Science] Ch.8 좋은 모델은 무엇인가?(기댓값)

'Cyong's 마케팅 > Data Science' 카테고리의 다른 글

[노량진/맛집/포차/가성비갑]오감만족

'Cyong's 일상' 카테고리의 다른 글

+ Recent posts

티스토리툴바