유사도(Similarity)와 거리(Distance)


유사도는 객체를 특징벡토로 표현하는 것으로 시작합니다. 특징을 정의하는 공간에서 두 객체가 가까울수록 두 객체는 더 비슷하도고 할 수 있습니다. 거리가 가까우면 유사하고 거리가 멀면 유사하지 않습니다. 즉 0에 가까울 수록 유사하다 할 수 있고 1에 가까울수록 유사하지 않다고 할 수 있습니다.


유클리드 거리


유클리드 거리는 두 가지 객체의 특징을 2차원 공간에서 (x,y)로 A, B라는 점으로 표현하고 각각의 좌표를 직각 삼각형으로 연결하고 사선의 변을 연결한 A와 B의 거리를 유클리드 거리라고 합니다. 단, 유클리드 거리는 2차원에 국한되지 않고, 3개의 특징을 가진 객체라면 (x,y,z)로 표현할 수 있습니다. 쉽게 말하자면, 어릴 때 부터 배워온 그 거리 개념으로 x, y축으로 나타내는 그 공간을 유클리드 공간이라고 생각하시면 됩니다.


최근접 이웃 추론(Nearest Neighbor)


최근접이웃이란 가장 비슷한 객체를 말합니다. 최근접 이웃 추론은 연관규칙분석의 하나로 연관성이 높은 객체들로 구성된 규칙집합을 생성합니다. 주로 추천 시스템에 사용되고 "장바구니 분석"이라고도 불립니다. 

유클리드 거리


타겟 변수를 예측하려는 데이터를 받으면 훈련세트에 있는 모든 데이터를 조사해 예측하려는 데이터와 가장 비슷한 데이터를 몇 개 찾아냅니다. 그 다음 타겟 값을 알고 있는 최근접 이웃에 기반한 새로운 데이터의 타겟값을 예측하면 되는 것입니다.


그렇다면 최근접 이웃 추론을 하기 위해서는 얼마나 많은 이웃이 필요할까요?


두 계층의 문제의 경우 다수결로 투표할 때 동점이 되지 않도록 홀수를 사용합니다. 최근접 이웃의 알고리즘은 종종 3-NN, K-NN형태의 약자로 표현합니다. 이때 K는 이웃의 개수를 의미하며, K가 커질 수록 이웃과 잘 어울릴 확률이 높아집니다. 하지만 K가 너무 커지게 되면 과적합화를 피할 수 없게 되므로 k를 1부터 늘여나가면서 가장 성능이 좋은 K를 찾아야 합니다.

가중치 적용투표, 유사도반영투표

이웃 표본개수를 확정했더라도 표본과 이웃의 거리가 다른 점 또한 간과할 수는 없습니다. 최근접 이웃의 레이블에 거리에 대한 가중치를 반영한 것이 가중치 적용투표, 유사도반영투표라고 합니다.


기하해석, 과적합, 복접도 제어

최근접 이웃기법을 시각화한 것으로 객체공간을 체계적으로 조사하여 각 점으로 분류하고 분류가 바뀌는 경계점을 만들어가면서 계산할 수 있습니다. 다르게 분류된 객체 사이에 점선을 그으며 들쭉날쭉한 도형이 생성되는데 일반적으로 모든 최근접 이웃 분류자의 경계선은 불규칙적인 반면, 객체 공간 훈련에 사용된 데이터에 딱 맞는 경계선이 만들어집니다. 하나의 섬처럼 표현된 객체는 일종의 노이즈나 외곽객체라고 볼 수 있습니다.


k-NN분류자에서 k는 복잡도를 나타내는 지표이며, k=1일 경우 매우 복잡한 모델을 얻게 됩니다.


최근접 이웃방법의 문제점


1. 모델 명료성

모델명료성에는 결정에 대한 정당성과 전체 모델의 명료성 두 가지 측면이 있습니다. 최근접 모델은 데이터로부터 어떤 지식을 마이닝해서 알아냈는지, 깊이 있게 설명하는 일은 어렵습니다. 따라서, 최근접 이웃모델에 담겨진 지식은 일반적으로 이해하기 어려우므로 명료성과 정당성이 중요한 경우에 최근접 이웃 모델은 맞지 않는 경우가 많습니다.


2. 차원 및 영역지식

고객 DB에는 여러가지 정보가 저장되어 있습니다. 예를 들어 신용카드에 가입할 지 안할지 여부와 관련이 있을 수 있지만 관련이 없는 정보도 다수 포함하고 있습니다. 이 문제는 차원이 높아서 발생하는 고차원문제라고 하며 차원수의 저주(Curse of Dimensionality)라고 합니다. 간단히 말해 거리를 계산할 때 모든 속성을 포함시키면 관련 없는 속성들이 객체에 너무 많은 영향을 주 객체 유사도 측정에 혼란을 일으키게 되는 것을 말하며, 해결방법으로는 특징을 신중하게 결정해 데이터 마이닝 모델에 포함할지를 결정하는 특징선택(Feature Selection)과 속성마다 서로 다른 가중치를 부여해 거리함수를 조절하는 방법이 있습니다.


3. 계산효율성

객체와 가장 가까운 이웃을 찾기 위해 DB를 검색함으로 대부분의 계산은 예측 및 분류 단계에서 발생하는 데 이 때 계산량이 엄청나게 많아 처리 부담이 발생하게 됩니다. 따라서 수십미리초 안에 계산해야하는 온라인 타겟광고 등에는 최근접 이웃기법을 사용하기 어렵습니다.


유사도 및 이웃에 관한 주요 세부사항


이질적인 속성


지금까지 유클리드 거리를 이용해 거리 계산만 하였으라 속성이 추가된 사례가 있습니다. 예를 들면 나이와 화폐가치를 들 수 있는데 속성간의 단위를 차별화 하지 않으면 소득의 10원과 나이의 10살을 동일하게 처리하게 됩니다. 최근접 이웃에 기반한 시스템은 데이터 전반부에서 변수 값의 규모나 단위를 조정하거나, 고정된 개수의 항목에 배분하는 전처리 작업이 수반되어야 합니다.


다양한 거리 함수


유클리드 거리(Euclidean Distance)(L2-Norm)

앞서 말했듯이 가장 널리 사용되는 거리 측정법입니다.


맨하탄거리(Edit Distance)(L1-Norm)

격자형으로 된 맨하탄 시내 같은 곳에서 두 점 사이에 이동하는 거리 측정법으로 '가로이동거리+세로이동거리=전체이동거리' 입니다.

빨간색 거리 = 파란색 거리


자카드거리(Manhattan Distance)

객체 집합간의 거리를 표현하는 것이며 두 집합이 얼마나 유사한 지 알 수 있기때문에 양쪽 객체 모두에게 있는 특징은 중요하지만 한쪽에만 있는 특징은 중요하지 않은 경우에 사용합니다.


코사인거리(Cosine Distance)

두문서의 유사도를 분류할 때 사용되는 거리로 텍스트를 분류할 때 어떤 문서가 다른 문서보다 훨씬 길다는 점을 무시하고 단지 내용에만 집중하고자 하는 경우 사용합니다.



편집거리(Edit Distance), 레벤쉬타인 거리(Leveinshtein Distance)

문자열 간의 거리 측정할 때 사용되며 글자를 변환하고 치환하는 편집연산을 활용해 한 문자열을 다른 무자열로 변환하기 위한 편집횟수를 계산하고 혼합하여 전체적인 유사도를 구합니다. 때문에 두 문자열이 얼마나 비슷한 지 확일할 때 사용되며 편집하는 데 걸리는 편집 횟수를 측정하여 편집거리를 구할 수 있습니다.



2017/06/03 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.5 과적합화

2017/05/28 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.4 데이터에 대한 모델 적합화(수학 함수를 이용한 회귀분석과 로지스틱 회귀분석)

2017/05/27 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.3 데이터에 대한 모델 적합화(수학 함수를 통한 분류)

2017/05/24 - [Cyong's 마케팅/Data Science] - [Data Science] Ch2. 트리구조모델

2017/03/25 - [Cyong's 마케팅/Data Science] - [Data Science] Ch1. 예측모델링_정보전달하는 속성 찾아내기



일반화


모델이나 모델링 프로세스의 특성윽로서 모델 제작에 사용되지 않은 모든 데이터에도 모델을 적용할 수 있는 성질을 뜻합니다.


과적합화


어떤 데이터 세트를 관찰해봄으로써 그 데이터 안에 존재하는 패털을 발견하게 되는 것으로 모델 복잡도와 과적합화 문제는 근본적으로 동전의 양면과 같은 관계입니다. 과적합화 문제는 알아내기도 쉽지 않을 뿐더러 안다하더라도 과적합화 되지 않는 데이터 마이닝 절차를 사용할 수 있는 것도 아닙니다. 과적합화를 한번에 해결할 수 있는 방법이나 절차가 없기 때문입니다.


과적합화 검사


적합도 그래프

모델 복잡도에 따른 모델의 정확도를 보여주는 그래프입니다.

예비 데이터(Holdout) : 타겟 변수값을 예측할 실제 데이터는 아니지만, 실험실에서 모델의 일반화 성능을 측정하기 위해 떼어 놓는 데이트를 의미합니다. 일반적으로 모델이 복잡해지에 따라 과적합화 문제가 커집니다.


트리 유도에서의 과적합화

데이터가 적어질수록 추론 오류가 발생하기 쉬워지며, 예비 데이터에 대한 성능도 떨어지게 됩니다.

스위트 스팟(Sweetspot) : 과적합화가 일어나는 시점으로 스윗 스팟을 넘어가면 정확도가 내려가게 됩니다. 스위트 스팟을 결정하는 것은 경험에 기반한 방법에 의존할 수 밖에 없습니다. 경제학에서 말하는 균형점(Equilibrium) 같은 거라고 생각하시면 편하지 않을까 생각됩니다.


수학 함수에서의 과적합화

변수(속성)를 추가하면 수학 함수는 더 복잡해지고, 데이터 세트에는 있는 속성을 모두 사용하면 모델링 절차는 훈련 세트에 잘 맞을 가능성이 훨씬 커집니다. 다만 속성을 추가할 수록 목적함수는 복잡해져 과적합화 되기 쉽기 때문에 주의해야 합니다.


왜 과적합화가 문제가 될까?


과적합화가 문제가 되는 이유는 모델이 복잡해지면서 해로운 가짜 연관성까지 학습하게 되기 때문입니다. 가짜 연관성은 훈련 세트에만 존재하는 특이한 성질일 뿐이며, 모집단 전체의 특성은 아닙니다. 때문에 가짜 연관성을 잘못 일반화하게 되면 과적합화 문제가 발생되고 모델의 성능이 떨어뜨리게 됩니다. 문제는 앞서 말씀드린대로, 과적합화 문제는 알아내기도 쉽지 않고, 과적합화를 피할 수 있는 절대적인 방법도 없다는 것입니다.

과적합화 문제는 분류 트리에만 국한되지 않으며 훈련데이터가 비정상적으로 편향되어 있어 발생하는 것도 아닙니다.


예비 데이터의 평가와 교차 검증


예비 세트가 어느정도 일반화 성능을 추정할 수 있게 도와주기는 하지만 이 실험 역시 단 한세트에 대한 추정일 뿐입니다. 즉, 단 한번 실험해 얻은 결과에 대한 정확도에 대한 확신을 가지기 어렵기 때문에 교차검증을 실시해야 합니다.


교차검증 : 일반화 성능을 딱 한번 추정하는 대신 평균이나 편차, 분산과 같은 추정된 성능에 대한 통계 데이터를 갖게 되면 데이터 세트에 따라 성능이 어떻게 바뀔지 예측할 수 있습니다. 교차검증은 제한된 데이터 세트를 더욱 잘 활용할 수 있게 만들어 줍니다. 표본을 체계적으로 바꿔가면서 '모든' 데이터에 대해 추정치를 계산해나가면 됩니다.


학습곡선


훈련 데이터야에 따른 일반화 성능을 보여주는 그래프

나머지 조건이 동일하다면 어느 정도까지는 더 많은 훈련 데이터를 사용할수록 모델링의 일반화 성능은 대체로 향상됩니다. 데이터 증가에 의한 장점이 어느 정도 한계에 달하면서 학습곡선은 완만해집니다. 학습곡선에 의하면 데이터 세트가 작을 때는 트리 유도가 과적합화 되기 쉬우며 로지스틱 회귀분석 모델의 성능이 더 좋은 것을 알 수 있습니다. 하지만 데이터 세트가 커지게 되면 트리 유도의 유통성이 도움이 됩니다.


학습곡선과 적합도 그래프간의 차이점은 학습곡선의 X축은 사용한 훈련데이터 크기를 나타내며, 시험 데이터에 대한 일반화 성능만 보여줍니다. 적합도 그래프의 X축은 모델의 복잡도로서, 훈련 데이터에 대한 성능뿐만 아니라 일반화 성능도 나타냅니다.


과적합화 회피와 복잡도 제어

균일화 : 균일화는 모델 복잡도를 통제하는 범용적인 방법입니다. 과적합화를 피하려면 데이터에서 유도된 모델의 복잡도를 제어해야 합니다.

균일화 방법

1) 너무 복잡해지기 전에 트리의 성장을 멈추게 해야 합니다. 가장 간단한 방법은 단말 노드에 들어가는 객체의 수의 최소 한도를 정하는 것입니다. 이 때, 객체수는 가설 검증을 통해 결정합니다. 가설 검증에 따라 정보량이 우연히 증가한 것이 아니라면 더 분할하고 트리를 계속 키우면 됩니다.

* 가설검증 : 어떤 통계 데이터에서의 차이가 단지 우연히 생긴 것인지 아닌지 평가하는 방법입니다.

2) 트리를 최대한 키운 후에 가지치기(프루닝,pruning)을 해서 복잡도(데이터의 크기)를 줄입니다. 일반적으로 프루닝은 단말 노드들과 가지를 하나의 단말 노드로 바꿀 때 정확도가 떨어지는 추정하기 위한 것입니다. 만약 정확도가 떨어지지 않는다면 프루닝을 하는 것이 좋습니다.

3) 내포된 교차 검증 : 내포된 교차 검증과 일반적인 교차 검증과의 차이점은 각 폴드 안에서 C값을 찾아내기 위해 더 작은 규모의 교차 검증을 먼저 한다는 것 뿐 방법적인 측면에서 큰 차이점은 없습니다.

4) 순차 전진 선택 기법 

5) 순차 후진 제거 기법

6) 파라미터 최적화에서 과적합화 피하기 : 트리와는 달리 로지스틱 회귀분석과 같은 방정식은 포함시킬 속성을 자동으로 선택하면 선택하지 않으므로 '올바른' 속성 집합을 직집 선택해 복잡도를 제어해야 합니다. 목적함수에 복잡도에 대한 벌점을 추가하여 균일화를 통해 복잡도를 제어할 수 있습니다. 람다(λ)는 벌점에 부여할 지 결정하는 가중치, 훈련 데이터에 내포된 교차 검증을 통해 결정합니다. 람다를 이용해 전체 훈련 데이터에 대한 균일화된 모델을 만들 수 있습니다. 데이터 마이닝 절차에 사용할 파라미터 값을 최적화하는 이와 같은 방법을 통틀어 격자 검색이라고 합니다.



2017/05/28 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.4 데이터에 대한 모델 적합화(수학 함수를 이용한 회귀분석과 로지스틱 회귀분석)

2017/05/27 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.3 데이터에 대한 모델 적합화(수학 함수를 통한 분류)

2017/05/24 - [Cyong's 마케팅/Data Science] - [Data Science] Ch2. 트리구조모델

2017/03/25 - [Cyong's 마케팅/Data Science] - [Data Science] Ch1. 예측모델링_정보전달하는 속성 찾아내기


수학함수를 이용한 회귀분석


회귀분석 : 두 변수 사이의 관계에 '가장 근접한' 선형 관계를 찾아내는 것.

선형회귀분석 모델의 구조는 선형판별함수와 동일합니다.

(표준)선형회귀분석 : 모델을 데이터에 맞추기 위한 방법(오차를 줄여나가는 방법)

최소제곱회귀분석 : 오찻값의 제곱의 합계나 평균값을 최소화. 계산편리성으로 널리 사용됩니다. 하지만 민감하게 반응한다는 단점이 있습니다. 외곽의 데이터 객체가 선형함수를 상당히 왜곡시킬 수 있기 때문입니다. 최소제곱법, 또는 최소자승법, 최소제곱근사법, 최소자승근사법(method of least squares, least squares approximation)은 어떤 계의 해방정식을 근사적으로 구하는 방법으로, 근사적으로 구하려는 해와 실제 해의 오차의 제곱의 합이 최소가 되는 해를 구하는 방법으로  값을 정확하게 측정할 수 없는 경우에 유용하게 사용될 수 있으며, 특히 그 계의 방정식이 어떤 형태인지를 알고 있을 때 방정식의 상수 값들을 추정하는 데에 사용됩니다.


계층 확률 추정과 로지스틱 회귀분석


계층확률 추정 : 새로운 객체가 어떤 계층에 속할 확률을 추정하는 것입니다. 예를들어 금융, 통신 등의 분야에서의 사기사건 탐지하는 것으로 선형판별식으로 사기 당한 계좌나 거래를 찾습니다.

위험에 처할 가능성이 높은 확률을 추정할 수 있어야 함

로지스틱회귀분석 : 다른 목적함수를 선택해 계층 확률을 정확히 추정하는 모델을 만드는 절차

승산 : 사건이 일어날 가능성을 표현하는 또 다른 방법으로 선형함수 f(x)가 사건이 일어날 로그승산을 측정하는 도구로 사용됩니다.

ex ) 모델은 특징 벡터 x로 표현한 고객이 만료 후에 서비스를 해지할 것인지에 대한 로그 승산을 추정할 수 있습니다.

확률 추정에 있어 로지스틱 회귀 분석은 분류하기 위한 선형판별식이나 수치형 타겟값을 추정하기 위한 선형 회귀분석과 동일한 선형 모델 사용

로지스틱 회귀모델이 계산한 값은 계층에 속할 로그 승산입니다. 로그승산은 계층에 속할 확률로 변환할 수 있으므로, 로지스틱 회귀분석을 계층에 속할 확률모델과 똑같이 생각할 수 있습니다.


로지스틱 회귀분석 : 수학적 세부사항


사건이 발생할 확률 추정치 : 

사건이 발생하지 않을 확률 추정치 : 

g함수는 객체 x에 대한 특징이 주어졌을 때 모델 x의 실제 계층을 추정할 수 있는 확률 계산 일렬의 가중치(w)가 파라미터가 됩니다.

최고유망모델 : 합계값이 가장 높은 모델로 평균적으로 양성 데이터일 때 가장 높은 가능성을 가지고, 음성데이터일 때 가장 낮은 가능성을 가집니다.


사례 : 로지스틱 회귀분석과 트리유도 비교


공통점

분류트리와 선형 분류자 : 모두 선형 결정 경계 사용

차이점

분류트리 : 객체공간 축에 직교하는 선으로 나타나는 결정 경계를 사용, 하나의 속성만 선택 객체공간을 반복해서 분할해, 객체를 매우 작은 영역까지 잘라낼 수 있습니다.

선형분류자 : 결정 경계는 방향 제한이 없음. 전체 속성에 대한 가중치 조합 사용합니다. 단 하나의 결정 경계로 경계의 방향은 자유롭짖만 두개의 세그먼트로 분할해야 합니다.

특징의 차이로 주어진 데이터 세트에 어느 모델이 더 잘 맞는지는 사전에 판단하기 어렵습니다.


비선형 함수, 지원벡터기계(SVM), 신경망


함수에 더 복잡한 특징을 추가하면 실제로 선형함수로 비선형모델 표현이 가능합니다. 파라미터를 복잡한 비선형 함수에 맞추는 바업에 기반한 기술은 비선형 지원 벡터기계와 신경망 계열에 주로 사용됩니다.

비선형지원벡터기계 : 본질적으로 복잡한 항목을 추가해 선형모델을 데이터에 맞출 수 있게 해주는 기법을 체계화 한 것으로 다항식 커널로 비선형 지원벡터기계를 구현 할 수 있습니다.

커널함수 : SVM에 원래의 특징을 다른 특징 공간에 대응 시키는 함수입니다.

신경망 : 모델을 스택구조로 층층이 쌓는 방법입니다. 일반적으로 최상위 계층에서만 타겟 변숫값 사용합니다.

가장 아래 계층은 로지스틱회귀분석을 주로 사용하고 윗 계층은 아래계층에 대한 계산결과로 다른 모델 만듭니다.

적합화 함수에 기반해 목적함수 결정하고 최적화 절차를 통해 거대하고 복잡한 함수에 가장 적합한 파라미터를 알아낼 수 있습니다.

다만 범용적으로 적용하기 보다는 특정 훈련 데이터 세트에만 잘 맞게 됨



데이터에 대한 모델 적합화 요약


함수 적합화는 파라메트릭 함수 모델링을 뜻하며, 데이터 마이닝으로 적합화할 파라미터가 데이터 속성들의 가중치가 됩니다. 함수를 적합화를 위해 주로 동일한 선형모델 구조, 즉 속성값들의 가중치 합을 사용하며 선형모델링 기법에는 SVM, 로지스틱 회귀분석, 선형 회귀분석과 같은 선형 판별식을 사용합니다. 그러나 각 기법은 서로 다른 함수를 사용하기 때문에 차이가 날 수 있습니다.


데이터 모델링에 있어 상당히 다른 두 가치 기법 : 트리유도와 함수 적합화

모델을 평가할 수 있는 두 가지 기준 : 모델의 예측 성능과 정보성


동일한 데이터 세트에 대해 여러 모델을 만들어 보면 데이터에 대한 통찰력을 얻을 수 있습니다. 다만 모델을 데이터에 맞추다 보면 데이터 세트에 우연히 들어간 구조를 발견하게 되는 데 이를 과적합화라고 부릅니다.


2017/05/27 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.3 데이터에 대한 모델 적합화(수학 함수를 통한 분류)

2017/05/24 - [Cyong's 마케팅/Data Science] - [Data Science] Ch2. 트리구조모델

2017/03/25 - [Cyong's 마케팅/Data Science] - [Data Science] Ch1. 예측모델링_정보전달하는 속성 찾아내기


Review


전체 데이터 집합을 세분화하여 더욱 정확한 정보를 전달하는 속성을 찾아가면서 감독 세분화 모델을 만듭니다.


[용어정리]


모델 : 목적 달성을 위해 실 세계를 명확화, 단순화하여 일정한 규칙으로 표현하는 것.

모델링 : 데이터에서 발견된 특정한 규칙에 의해 모델의 종류나 패턴을 생성하는 데 그것을 발견하는 행위.

예측 : 발생할 일이나, 모르는 값을 추정하는 것.

예측모델 : 어떤 값을 예측하기 위해 일정한 규칙으로 표현한 공식.

예측모델링 : 데이터 과학에서 타겟 값(미래의 행동 또는 변화의 결과)을 예측하는 것.

데이터 마이닝 : 모델이 가능한 한 데이터에 잘 맞도록 파라미터를 튜닝하는 것.

파라미터 : 전달자

파라미터 학습(Parametric modeling) : 파라미터를 수정하여 모델의 정확성을 높이는 방법


파라미터 학습에 대한 주요 가정


1. 2개의 결과값만 고려(어떤 사건이 발생한다,  안한다)합니다.

2. 속성은 수치형 속성(즉, 숫자로 표기된 속성)만 고려합니다.

3. 수치형 데이터는 표준화하지 않습니다.(예를 들어, 나이, 소득 등의 단위가 다른 데이터를 공통단위로 표준화하지 않습니다.)


수학 함수를 통한 분류


선형 판별 함수


모델을 데이터에 적합화하려 할 때 모델을 수학적으로 표현하면 도움이 됩니다.

이를 선형 판별식이라 하며, 결정 경계를 나타내는 함수는 속성들의 선형 조합(가중치의 합)입니다.

속성의 가중치 합으로 모델을 표현할 수 있으며, 이 선형모델이 일종의 다변형 감독 세분화입니다.

여러 속성을 한꺼번에 고려하기 위해 속성을 변수로 사용해 수학함수로 만듭니다.

선형함수의 가중치가 기울기입니다. 올바른 가중치는 특정데이터 세트에 맞도록 만들어야 합니다. 데이터 학습 후 알아낸 가주이는 각 특징의 중요도를 나타내는데, 특정 가중치가 크면 타겟을 분류하는 데 더 중요한 특징으로 생각되며, 특정 가중치가 0에 가까울 수록 그 특징은 무시됩니다.

하지만 계층을 잘 나누는 선을 고르는 일은 쉽지 않습니다. 그렇기 때문에 각각의 판별식은 데이터 모델을 나타내며, 훈련 데이터 세트를 완벽히 구분하는 선은 무한히 많음에도 불구하고 어떤 선을 골라야 할지의 선택이 문제가 됩니다.


목적함수의 최적화


데이터 마이닝하는 진정한 목표에 맞는 목적 함수를 만드는 일은 거의 불가능 합니다. 하지만 목적함수를 만드는 효율적인 방법들이 있으며, 가장 효율적인 방법은 <지원벡터기계(Support Vector Machine(SVM))>가 있고, 데이터 마이닝 기법 중 선형모델을 적용해 계층 확률을 추정하는 <로지스틱 회귀 분석(Logistic regression)>이 있습니다. SVM과 로지스틱회귀분석에 대해서 나중에 좀 더 자세히 다루도록 하고, 아래의 예를 통해 SVM과 로지스틱 회귀분석에 대해서 간략하게 알아보도록 하겠습니다.


ex) 아이리스(나무)의 여러 종에 대한 데이터 세트

아이리스 세토사 / 아이리스 베르시컬로 2종류를 분류하여 x축: 꽃잎 너비, y축 : 꽃받침 너비의 측정값으로 둡니다.

로지스틱 회귀분석 : 두 계층을 완전히 분할 / 선 왼쪽 - 베르시 컬로, 선 오른쪽 - 세토사로 분류

SVM : 두 덩어리의 거의 한 가운데 있으나, 별모양을 분리해내지는 못합니다.


객체를 점수화하고 순위매기는 선형판별함수


어느 객체가 어느 계층에 속하는 지가 아닌, 속할 확률이 어느 정도인지 알고 싶은 경우 사용합니다. 예를 들어, 어떤 고객이 프로모션에 응할 가능성이 높은 지, 어느 고객이 계약 만료 후 해지할 가능성이 높은지 알아볼 때 선형판별함수로 객체가 어떤 계층에 속할 확률에 따라 순서를 매기고 결정경계에 있는 사람들은 어느 계층에 속할 지 가장 불확실하고 멀어질수록 확률이 높다 판단할 수 있습니다.


지원벡터기계(SVM) 개요


SVM은선형판별식으로써 특징에 대한 선형 함수에 기반해 객체를 분류합니다.

SVM의 목적함수 : 아직 분석하지 않은 데이터를 쉽게 분류하기 위해 선형판별식 주위의 폭을 최대로 만드는 것이 목적입니다.

(앞서 말한대로, 목적함수는 계층 두개를 분할하는 무수한 선형판별식 중 어떤 선이 가장 좋을 지 선택합니다.)

경첩손실함수 : 분류가 불가능한 데이터 처리방법으로 잘못 분류한 데이터에 벌점을 적용하여 가장 잘 맞는 함수만 사용할 수 있도록 하는 함수입니다.(분할경계에서 멀리 떨어질수록 더 많은 벌점을 부여함)



2017/03/25 - [Cyong's 마케팅/Data Science] - [Data Science] Ch1. 예측모델링_정보전달하는 속성 찾아내기

2017/05/24 - [Cyong's 마케팅/Data Science] - [Data Science] Ch2. 트리구조모델

트리 구조 모델을 이용한 감독 세분화


속성 선택이 매우 중요하긴 하지만 속성을 선택하는 것이 전부는 아닙니다. 만약 정보량을 증가시키는 속성이 하나가 아니라 여러 개 존재한다면 이 속성들을 어떻게 결합해야 할 지 판단하기 쉽지 않습니다. 이럴 때는 중요한 속성을 골라내기 위해 개발한 방법을 활용한 다변량 감독 세분화 방법인 트리구조화 방법을 이용합니다.

출처:Data Science for Business


트리는 내부노드(Internal node)와 단말노드(Teminal node)로 나눠지며, 내부노드에서 가지가 뻗어 나옵니다. 트리구조는 모든 데이터가 트리에서 단 하나의 경로를 따라 결국 단 하나의 단말노드에 도착하도록 데이터를 분할합니다. 달리 말하면, 단말노드는 하나의 세그먼트(segment)이고, 여기에 도착하는 경우의 값은 세그먼트의 특성을 나타냅니다. 그리고 분류에 대해 설명하고 있으므로 각 단말 노드는 세분화한 그룹을 담고 있으며, 이런 트리를 분류트리 또는 결정트리라고 부릅니다.


데이터에서 분류트리를 만드는 방법


트리유도는 분할정복법을 이용합니다. 우선 전체 데이터 세트에서 속성을 기준으로 가장 순수한 하위그룹으로 분할하는 변수를 찾습니다. 그리고 이를 재귀적으로 반복하여 트리를 유도할 수 있습니다.


확률 추정


트리의 단말 노드에 있는 모든 객체에 동일한 계층확률을 부여해도 된다면 단말노드에 있는 객체의 수를 이용해 계층 확률 추정치를 계산할 수 있습니다. 예를 들어 단말노드에 n개의 긍정적인 객체와 m개의 부정적인 객체가 있다면 새로 세그먼트로 분류된 객체가 이 계층에 속할 확률은 입니다. 이렇게 확률을 계산하는 방법을 빈도기반 계층확률추정이라고 합니다. 그러나 객체 수가 적을 때는 난관적인 결과(과적합화(overfitting))를 초래할 수도 있습니다. 이럴 경우에는 단순히 빈도를 계산하는 대신 빈도를 완충시킬 수 있는 라플라스 교정법을 사용해서 아래와 같은 식으로 바꿔줍니다.

(n은 단말노드, c는 계층에 속하는 객체의 수, m은 c객체에 속하지 않는 객체의 수)


트리유도로 고객이탈 문제 해결하기


분류트리를 만들기 전 '고객이탈을 예측하는 데 변수들의 중요성'을 알기 위해 각 속성의 정보증가량(IG)을 측정합니다.

(IG에 대한 설명 참고 - 2017/03/25 - [Cyong's 마케팅/Data Science] - [Data Science] Ch1. 예측모델링_정보전달하는 속성 찾아내기)

그리고 IG의 순위로 정렬한 속성데이터를 차례로 노드로 트리를 만듭니다. 하지만 루트노드를 제외한 모든 노드 변수는 전체 객체 집합이 아니라 상위노드에 의해 분류된 객체만을 평가하기 때문에 내부노드의 정보증가량 순위와 전체집합의 정보증가량은 다를 수 있습니다.(대게 같지 않습니다.)

애드센스 승인을 위해 고민하던 시절이 엊그제 같은데 한달만에 계정정지 당하는 불상사를 겪고말았습니다.

2017/03/11 - [Cyong's 마케팅/Google] - [뇌피셜] 구글 애드센스 신청과 승인방법 그리고 유튜브


앞서 말씀드렸지만 각고의 노력 끝에 애드센스 승인이 나고 몇가지 실험(?)을 하던 도중 갑자기 계정이 정지 되는 사건이 발생하고 말았습니다ㅠㅠ아직 남아있는 SSP 분야에 대한 공부를 위한 실험이 많은데 말이죠.

아마도...

지인들에게 애드센스 승인되었다며 '이제 사람들이 광고를 클릭하면 볼펜 정도는 살 수 있는 용돈을 벌 수 있다.'고 자랑하고 다니고 얼마 안되서..계정정지를 당하고 말았습니다. 아마 직접클릭이 위반 사유라면 직장 내에서 동료들이 누른 게 확실하다고 생각합니다. 동일 IP로 잡힐테니깐 말이죠. 아무튼 그 일로 혹시나 나중에라도 도와준다고 부정클릭하지 말아달라고 신신당부를 하고 한동안 애드센스 얘기는 일절 하지 않게 되었습니다. 그래서 동료들에게 다시 활성화된 것도 비밀~로 하고 있습니다.ㅎ

처벌 내용은 한달간 사용 중지와 그간 예상되는 수익 중 부정클릭으로 간주되는 수익 환수조치! 인데.. 더 많이 가지고 가는 거 같아요 ㅋㅋ부정클릭은 절대 노노 입니다.


아무튼! 그 이후에 실수라도 엄지손가락이 광고를 누를까 마우스가 미쳐서 광고를 누를까 노심초사하게 되었는데요

그래서 준비한 이번 포스팅의 주제는 저 같이 한번 실수(?) 또는 장난으로 인해 영원히~ 계정 정리될까 걱정하는 분들을 위해 준비했습니다.

바로! 구글 애드센스 부정 클릭 방지를 위한 프로그램 Google Publisher Toolbar에 대한 소개! 입니다.


프로그램 이름을 보고 감이 오신 분들도 많겠네요. 바로 구글에서 제공하는 구글크롬의 확장프로그램입니다. 구글 퍼블리셔 툴바의 장점은 앞서 말씀드린 부정클릭을 예방해주는 것 뿐만 아니라 실시간으로 애드센스 예상수익에 대한 정보를 실시간으로 확인할 수 있다는 점입니다.

성과에 대해서 실시간으로 확인할 수 있다는 점은 GA필수 프로그램인 Page Analytics (by Google)과 비슷한 것 같습니다. 

우측 상단 버튼을 눌러 확장프로그램을 들어간 후 더 많은 확장프로그램 다운로드를 누르신 후 Google toolbar를 검색하시면 위와 같은 화면이 나오고 크롬에 추가하기 버튼을 누르시면 설치가 완료됩니다.

또는 아래 url로 바로 들어가셔도 무방합니다.

https://chrome.google.com/webstore/detail/page-analytics-by-google/fnbdnhhicmebfgdgglcdacdapkcihcoh?hl=ko

설치한 후에는 위에 전기처럼 생긴 회색 버튼을 누르시고 애드센스 사용 버튼을 눌러주시면 계정과 연동하여 활성화 되고 버튼의 색깔은 파란색으로 변하게 됩니다.


이제 블로그에 다시 들어가보면 광고영역은 아래와 같이 녹색으로 변하게 되고 마우스를 갖다대면 '어느 회사의 어떤(반응형) 광고다.' 라는 것도 표시되게 됩니다.

 혹시 녹색으로 안변했다면 파란번개버튼을 누르고 광고오버레이 ON 상태로 되어 있는 지 확인하시고 (보통은 자동으로 광고오버레이 ON 상태로 되어 있으니 신경 쓰지 않으셔도 됩니다.)

그렇지 않다면 톱니버튼을 눌러 계정, 사이트를 눌러 계정과 사이트가 정상적으로 반영되어 있는 지 확인해보시면 됩니다.


지금까지 실수로 부정클릭하는 것을 막을 수 있는 프로그램에 대해서 알아봤는데요

구글에서는 어떤 기발한 방법으로 부정클릭을 시도해도 왠만하면 다 잡아낸다고 합니다.

그리니 부정클릭은 절대로 하지마시고 저 같이 계정정지 당하는 일이 없으시길 바라겠습니다.



2017/03/11 - [Cyong's 마케팅/Google] - [뇌피셜] 구글 애드센스 신청과 승인방법 그리고 유튜브

디지털 마케팅의 용어 중 일부 단어들은 디지털 마케팅에 종사하는 사람이 아니라면 파악하기 어려운 경우도 많습니다. 대부분의 업계에서와 마찬가지로 마케팅업계에서 사용되는 용어도 영어가 많기 때문에 한 단어가 많은 정의를 가질 수도 있습니다. 

이번 포스팅에서는 마케팅 업계를 처음 접한 분들을 돕기 위해 초심자가 느끼기에 어려울 수 있는 용어 중 일부를 소개하고자 합니다.

혹시 잘못된 내용이 있거나 추가 되야 할 것 같은 단어가 있으시면 댓글 부탁드립니다.



Artificial intelligence(인공지능)

간단히 말해, 데이터 기반 예측을 만드는 것은 수학적 모델을 사용하는 것입니다. 이 기술은 사기 발견, 스팸 필터링, OCR 등에서 많이 쓰였습니다. 하지만 최근에는 텍스트 분석 및 번역, 음성 인식 및 이미지 분석과 관련된 비정형 데이터를 마이닝하고 분석하는 분야에도 많은 발전이 이루고 있습니다. 또한 DMP, DSP 등에서도 이제 기계 학습 API를 제공하고 있으므로 우리는 우리도 모르는 사이 이미 인공지능 기술을 점점 더 많이 사용하고 있습니다. 그렇다고 인공지능이 만능은 아닙니다. 그렇게 때문에 우리는 모든 소프트웨어 개발자나 디지털 마케팅 업체에서 '인공 지능 강화'를 주장할 때, 인공지능이라는 단어에 현혹되지 않는 것이 중요합니다.


마케팅 자동화(Marketing automation)

마케팅 자동화의 시작은 전자 메일 자동화에서부터 시작되었습니다. 아직 생긴지 얼마 되지 않은 기술이죠. 전자 메일 자동화에는 잠재 고객과 그 잠재 고객이 받을 메시지를 결정하는 규칙을 만드는 작업이 포함됩니다. 그리고 이런 로직들이 발전하여 검색광고(SA) 및 디스플레이 광고(DA)에서도 고객에게 맞춤형 광고를 보여줄 수 있게 되었습니다.

예를 들어, 홈페이지에 방문한 고객들에 자동으로 추가 메시지를 보내 일부 추가 리소스로 안내 할 수 있습니다. 또는 들어왔지만 아무런 액션을 하지 않은 고객들에게는 기존에 메일과는 다른, 고객이 혹할 수 있을 만한 메세지를 보내게 됩니다.

때문에 마케팅 자동화는 때로는 행동 마케팅이라는 용어와 융합되어 사용되기도 합니다. 행동 마케팅은 웹 사이트, 모바일, 소셜을 포함한 다양한 채널에서 고객 상호 작용을 보고 때로는 DMP를 활용하여 3rd parties data를 포함하여 잠재 고객이 받을 메시지 또는 광고를 결정합니다. 행동 마케팅은 잠재적으로 관심이있는 사용자를 타겟팅하기 위해 쿠키 데이터를 사용하는 타겟팅된 디스플레이 광고와 가장 관련이 있습니다.


Chatbot(챗봇, 채팅봇)

한때 유행이었던, 맥스, 심심이, 시리 등이 대표적인 챗봇이라 할 수 있습니다.

최근 열린 ‘F8 2016’에서 마크 주커버그(Mark Zuckerberg) 페이스북 최고 경영자가 주목한 키워드는 ‘메신저’, 그리고 ‘챗봇(Chatbot)’이었습니다. 그는 당시 진행한 행사에서 챗봇과 함께 메시징 API를 공개했습니다. 때문에 챗봇은 현재 다양한 업계에서 뜨거운 관심을 한 몸에 받고 있습니다.

하지만 아직까지는 대부분의 챗봇들은 자유로운 채팅이 가능하진 않습니다. 즉, 사용자가 자유 텍스트를 입력했을 때 정상적인 대답을 하지 못하는 경우가 많습니다. 하지만 챗봇은 커뮤니케이션을보다 쉽고 집중적으로하기 위해 만들어 졌으며 최근 국내에서도 고객 상담이 중요한 홈쇼핑, 인터넷 쇼핑몰, 은행·보험사부터 음식 배달, 숙박 예약 서비스를 제공하는 스타트업들까지 적극적으로 챗봇을 도입하고 있습니다. 


Customer experience / User experience

고객 경험은 사용자 경험은 똑같은 용어로 고객이 모든 채널에서 브랜드와 관련된 모든 경험을 언급 할 때 사용됩니다. 예전에는 UI(User interface)를 강조했지만 최근 소비자의 브랜드 경험에 의해 마케팅의 성과가 좌우된다는 주장에 따라 고객의 경험적 측면의 중요성을 강조하기 위해 생겨난 단어입니다. 때문에 홈페이지나 앱을 만들 때도 앱로그분석을 통해 최적의 UX를 제공하고자 하는 움직임이 활발합니다.

CRM

말그대로 고객 관계 관리 라는 의미로 사용되지만 회사마다 CRM을 해석하는 의미는 다양합니다. 어떤 회사는 전자 메일, 대금 청구 및 다이렉트 메일(DM), 판매의 큰 부분 등을 주로 CRM의 업무라 생각합니다. 하지만 최근에는 CRM을 고객관계관리에 한정하여 생각하지 않고 영업, 마케팅 및 서비스 부서와의 고객 상호 작용을 분석하고 관리 하여 궁극적으로 고객 라이프 사이클을 형성 하는 등 고객과 접점이 직간접적으로 있는 회사의 모든 활동을 CRM의 영역으로 바라보고 있는 추세입니다.


Full-stack marketer

개발에서 사용되는 용어를 가져온 것으로, 풀 스택 개발자는 백 엔드 및 프런트 엔드 기술 모두에서 활약합니다.

마찬가지로 풀 스택 마케팅 담당자는 또한 마케팅 영역의 모든 부분을 아우를 수 있는 역량을 가진 마케터로서 이벤트, SA, DA와 같은 유료 광고, SEO, Growth hacking, 카피 라이팅, CRM 등 모든 성장 활동을 관리해야 할 수 있습니다.


Growth hacking

창의성, 분석적인 사고, 소셜 망을 이용하여 제품을 팔고, 노출시키는 마케팅 방법으로 스타트업회사들에 의해 개발되었습니다. 그로스 해킹은 새로운 고객을 찾는 데 있어 빠른 실험 과정을 의미합니다. 때문에 최근 핫하게 사용되는 단어입니다

다시말해 그로스 해킹은 온라인 마케팅의 한 종류라고 볼 수 있는데, 그로스 해커(growth hacker)들은 검색엔진 최적화, 웹사이트 분석, 컨텐츠 마케팅, A/B 테스팅과 같은 이미 대중화된 기술을 잘 이용하고 있습니다. 그로스 해커(growth hacker)들은 낮은 비용으로 라디오, 뉴스, 텔레비전 광고 등과 같은 기존 미디어광고을 대체할 수 있는 소셜미디어나 바이럴 마케팅과 같은 혁신적인 방법들에 초점을 두고있다.



Influencer

이 단어는 최근 영향력있는 YouTuber 에 많이 사용되지만 Influencer가 의미하는 것은 훨씬 넓습니다. 영향력있는 사람들은 전체를 포함한다고 생각하셔도 무방합니다. 정치가나 유명 연예인 뿐만아니라 파워블로거, 유명 유튜버 등 인맥형성노드가 많은 사람들을 뜻합니다. 이를 활용해 영향력있는 사람들에게 마케팅을 하거나 자신의 콘텐츠를 후원하거나 협력는 등의 마케팅 활동을 할 수 있습니다.



Omnichannel marketing / ecommerce

다중 채널, 옴니 채널의 논리적 확장은 채널이나 장치에 관계없이 끊김없는 일관된 경험이라는 개념입니다. 전자 상거래에서 옴니 채널은 주식 및 상점 및 창고 전반에 대한 통합 된 뷰와 고객에 대한 단일 뷰 (충성도 제도 또는 전자 영수증을 통한 온라인 및 오프라인 구매 연결)를 의미 할 수 있습니다.



Service design

서비스 설계에는 디자이너, 개발자, 사용자 연구원, 컨텐츠 전문가, 프로젝트 관리자 및 제품 관리자가 참여하는 교차 기능 팀을 의미합니다. UX가 강조됨에 따라 생겨난 팀으로 이 팀은 종종 다양한 채널에 걸친 고객 상호 작용에 중점을 두고 은행 계좌 신청과 같은 특정 서비스를 개선하기 위해 노력합니다. 최근 컨설팅 회사들은 설계 능력을 기르기 위해 많은 투자를 하고 있으며 우수한 고객 경험의 우선 순위를 결정하는 데 있어 설계가 더 중요 해지고 있습니다.


2016/12/04 - [Cyong's 마케팅] - 마케팅 기초 용어 정리

2016/12/13 - [Cyong's 마케팅] - TVC 광고의 매체용어 정리

2016/12/09 - [Cyong's 마케팅] - 모바일 광고 플랫폼 정리


모델, 유도, 예측


모델이란 목적을 달성하기 위해 실세계를 명확하, 단순화하여 일정한 규칙으로 표현 한 것입니다. 즉, 확률함수로서 특징을 입력받아 타겟 변수값을 추정하는 것입니다. 쉽게 설명하지면 경제학에서의 '수요공급곡선'은 수요와 공급에 대한 관계를 단순하게 표현하기 위해 만들어진 모델입니다. 


모델링이란 속성 또는 특징와 같은 일련의 변수와 타겟 변수라고 불리는 사전에 정의한 변수간의 관계를 보여주는 모델을 만드는 행위를 말합니다. 


예측이란 발생할 일이나 모르는 값을 추정하는 것인데 , 예측 모델(어떤 값을 예측하기 위해 일정한 규칙으로 표현한 공식), 예측 모델링을 통해 예측을 합니다.


감독 세분화 (Supervised Approach)


감독방법으로 데이터에서 패턴을 만드는 방법에 대해 생각해보면 타겟변수를 기준으로 전체 데이터를 유사한 값을 가진 세그먼트로 분할하는 방법이 있다. 타겟값은 모르지만 알려진 변숫값으로 분할 한다면 이 세그먼트는 타겟 변숫값을 예측하는데 사용될 수 있다. 그리고 두드러진 세그먼트를 자동으로 뽑아내기 위해서는 정보를 전달하는 속성을 알아보고 이 기법을 반복 적용해 어떻게 감독 세분화하는지를 알아야 한다.


정보를 전달하는 속성의 선택


2진 분류인 타겟 변수값(yes 또는 no)을 생각해봅시다. 사람들 중 대손상각 여부와 여러 속성을 데이터로 하면 어느 세그먼트에 속한 그룹원이 다른 세그먼트 그룹원보다 상각률이 높은지 낮은지 예측할 수 있습니다.


그러나 기술적으로 복잡한 문제가 많습니다.


a. 그룹을 완전히 분리하는 속성은 거의 없다.

b. 3개 이상의 값을 가진 속성도 많다.

c. 수치값을 가지는 속성들도 많다.


이러한 문제를 해결하기 위해 순도에 기반한 여러 공식들이 존재합니다.


가장 널리 사용되는 분할 기준은 정보증가량(IG)이라고 부릅니다.


정보증가량(Information Gain, IG)와 엔트로피(entropy)


정보증가량은 엔트로피라고 불리는 순도에 기반합니다. 엔트로피는 어떤 집합에 적용해 무질서의 정도를 측정하는 것입니다. 뒤죽박죽 섞인 정보일수록 엔트로피가 높습니다.


정보의 엔트로피를 구하는 공식은 아래와 같습니다.

                         

위 식에서 각 는 i 번째 속성의 확률을 의미합니다.

즉, 인 경우 100%의 확률로 모든 원소가 i번째 속성을 가지는 것을 의미하고 인 경우에는 i번째 속성을 가진 원소가 하나도 존재하지 않는 것을 의미합니다.

엔트로피는 0일 경우 무질서 정도가 최소이고 1일 경우 무질서 정도가 최대라 할 수 있다.


분할, 분류를 통해 엔트로피가 많이 줄어들 수록 좋은 분할이라고 말할 수 있을 겁니다. 어떤 속성에 따라 분류하면 전체그룹의 엔트로피가 개선되는지 추정할 수 있도록 나타내주는 수치가 IG입니다.


정보증가량를 구하는 공식은 아래와 같습니다.


위 식에서 는 분할 전 집합이고 는 분할 후 i번째 집합을 의미합니다.


정보증가량으로 판단할 때에는 분할 후 집합이 완전히 순수할 필요는 없으며, 분할한 후의 집합의 개수에 상관없이 적용할 수 있습니다. 또한 분할 후 집합의 크기를 고려해 가중치를 조절할 수도 있습니다.


하지만 기술적으로 너무 다양한 값을 가질 수 있는 속성에 대해서는 문제가 발생할 수 도 있습니다. 같은 속성을 기준으로 세분화하면 IG는 상당히 늘어나지만 예측이 난해해지는 과적합화(Over-fitting)가 발생할 수 도 있습니다.


타겟변수가 수치형일 경우에는 수치형값의 불순도를 측정하는 방법인 분산을 이용합니다. 즉, 수치형 타겟값을 세분화하려면 가중치 평균의 분산이 가장 많이 줄어드는 값을 선택하면 됩니다.


IG을 증가시키는 속성선택


구체적인 데이터 마이닝을 위해선 속성과 타겟변수를 가진 객체가 담겨있는 데이터세트를 분석해 타겟변수를 추정하는데 필요한 정보를 가장 많이 전달하는 속성을 결정해야 합니다. 그리고 과적합화를 피하기 위해 데이터 세트에서 타겟변수를 예측할 때에는 데이터마이닝 해야 할 속성이 너무 많은 것은 아닌지 전혀 쓸모 없는 것이 있는 것은 아닌지 의심해봐야 합니다.

원래의 순서라면 이제 Dimension과 Metrics에 대해서 살펴봤으니 마케팅 성과를 확인하기 위해 목표값을 설정해야 할 차례지만 이번 포스팅에서는 목표값을 설정하는 방법에 앞서 정규식을 배워보도록 하겠습니다.


그 이유는 정규식을 활용하면 좀 더 목표값을 잘 설정할 수 있기 때문입니다.


Regex - 정규표현식

특정한 규칙을 가진 문자열의 집합을 표현하는 데 사용하는 형식언어


GA는 리포팅을 좀 더 자유롭게 할 수 있도록 정규 표현식을 사용할 수 있게 설계되어 있습니다. 정규식을 활용하면 원하는 데이터만을 필터링하여 리포팅 할 수 있기 때문에 그 활용도가 굉장히 높은 편입니다. 


https://support.google.com/analytics/answer/1034324?hl=ko 에 가면 아래와 같이 정규식에 대한 정보를 얻을 수 있습니다.

<출처 : 구글 웹로그 분석 고객센터>



자주쓰는 정규식 표현


|

‘또는’을 의미하는 표현으로 shift+\로 표현됩니다.


.

임의의 한 문자를 표현할 때 사용됩니다.


\

특수문자를 문자화할 때 사용됩니다.


^

입력 문자의 시작부분을 표현할 때 사용됩니다.


$

입력 문자의 끝을 표현할 때 사용됩니다.


*

앞의 문자와 0회 이상 일치함을 의미하는 표현방식입니다. ‘.*’을 사용하면 어떤 것도 올 수 있으며 아무것도 없어도 됩니다. 예를 들어 ‘.*tistory\.com.*’ 이란 표현을 하게되면 추적 중인 모든 티스토리 페이지에 대한 표현을 할 수 있습니다.


\d

임의의 한 숫자를 표현합니다.



자주쓰는 정규식 표현만 알아둬도 대부분의 표현을 할 수 있을 거라 생각됩니다.
이제 정규식까지 알아보았으니, 다음 포스팅에서는 목표(Goal)값을 설정하는 방법에 대해서 알아보도록 하겠습니다.


2016/12/05 - [Cyong's 마케팅] - 구글 애널리틱스 Ch.1 GA의 장단점 및 리포트 메뉴

2016/12/05 - [Cyong's 마케팅] - 구글 애널리틱스 Ch.2 티스토리_GA 연동하기

2017/03/13 - [Cyong's 마케팅] - 구글 애널리틱스 Ch.3 GA 주요지표 이해하기

2017/03/18 - [Cyong's 마케팅] - 구글 애널리틱스 Ch.4 GA Metrics와 Dimension의 이해


GA를 사용하시는 분들이라면 Metrics와 Dimension에 익숙해지셔야 합니다.

처음 GA를 접하게 되면 Metrics와 Dimension에 대하여 정확하게 이해가 되지않아 어려움을 겪게 되는데요. Metrics와 Dimension에 대해서만 완벽하게 이해하게 된다면 GA를 원활하게 활용하실 수 있을 겁니다.


이번 포스팅에서는 Google Analytics를 구성하고 있는 Metrics와 Dimension에 대해 알아보도록 하겠습니다.


Metric(측정기준) = 지표, 단위

상태를 판단하기 위한 용도로 측정된 수치를 이해할 수 있는 언어로 표현하는 것입니다. 이전 포스팅에서 말씀드렸던 주요지표 또한 Metrics 중 하나입니다. 즉 Metric는 세션, 이탈률과 같은 지표라고 생각하시면 이해하기 쉬울 겁니다.


Dimension(측정단위)

Dimension은 웹사이트 방문자들의 특성(속성)입니다. Metrics가 측정된 데이터를 숫자로 말하고 의미를 부여한다면, Dimension은 텍스트를 통해서 데이터를 분리하는 역할을 합니다. 예를 들어, 방문자들이 어느 도시에서 많이 들어왔는지(도시명), 어떤 경로로 사이트에 유입됐는지(소스/매체)가 있습니다. 이렇듯 Google Analytics의 보고서들은 모두 Dimension과 Metrics의 조합으로 이루어져 있습니다.



위의 보고서는 “소스/매체별 획득” 보고서 입니다. 위의 보고서는 소스/매체라는 “Dimension”과 세션, 신규방문자, 이탈률, 목표달성횟수 등의 “Metric”으로 이루어져 있습니다.


앞서 말씀드린대로 Google Analytics의 보고서들은 모두 Dimension과 Metrics의 조합으로 이루어져 있습니다. 그렇기 때문에 GA 를 활용하고자 하시는 분이라면 반드시 “Dimension”과 “Metric”에 대한 정확한 이해가 필요합니다.


2017/03/13 - [Cyong's 마케팅] - 구글 애널리틱스 Ch.3 GA 주요지표 이해하기

2016/12/05 - [Cyong's 마케팅] - 구글 애널리틱스 Ch.2 티스토리_GA 연동하기

2016/12/05 - [Cyong's 마케팅] - 구글 애널리틱스 Ch.1 GA의 장단점 및 리포트 메뉴


+ Recent posts