텍스트

문서 안의 단어(텍스트)는 자유로운 형태이고, 차례대로 나오며, 각 문서는 하나의 객체로 보지만, 특징에 대해선 알 수 없습니다. 데이터의 또 다른 형태이며, 데이터로 활용하기 위해선 변환이 필요합니다. 텍스트는 '비구조 데이터'라 컴퓨터는 텍스트를 인식하기 어렵습니다. 때문에 컴퓨터가 인식할 수 있도록 가공을 할 필요가 있습니다. 텍스트를 컴퓨터가 인식할 수 었도록 데이터로 표현(변환)하는 방법은 특징 벡터 형태로 변환하는 것입니다. 


텍스트 처리 기본 용어

토큰 : 하나의 단어

코퍼스 : 문서를 모아 놓은 것, 문서의 묶음

단어주머니 : 개별적인 단어의 집합(문법, 단어순서, 문장구조, 무시). 단어주머니는 모든 단어가 문서의 키워드가 될 가능성이 있습니다. 표현이 매우 간단하며, 생성하는데 연산이 적게 소요됩니다. 단어주머니를 사용하면 여러  종류의 작업에 잘 맞습니다. 컴퓨터의 단어 인식하는 방법으로는 문서에 토큰이 있으면 1, 없으면 0으로 표현합니다.


단어빈도

단어의 횟구(빈도) : 문서 안에서 단어가 나오는 횟수 - 해당 단어의 중요도

위의 표를 만들기 위해 어근을 기준으로 단어 변화가 필요합니다. 방법은 아래와 같습니다.

ⓐ 모든 단어를 소문자로 표기합니다.

ⓑ 형용상 복수형의 단어를 단어 어근으로 변경합니다.

ⓒ 불용어 제거합니다. 불용어란 인터넷 검색 시, 검색용어로 사용되지 않는 용어(관사/전치사/조사/접속사 등)를 뜻합니다.


앞서 말한대로, 단어빈도는 하나의 문서 안에서 어떤 단어가 얼마나 많이 나오는 지를 측정하는 것으로 단어와 문서 간의 관계를 나타내기 위한 것입니다. 문서 안에서 단어의 비중을 결정 시, 특정 단어가 너무 빈번하게 나오면 안됩니다. 그래서 2가지 측면에서 추가적으로 검토가 필요합니다.

ⓐ 단어가 너무 희귀하면 안됩니다.

ⓑ 단어가 너무 흔해도 안됩니다.


단어가 나온 문서의 수가 적을수록 단어가 문서에 중요할 가능성이 더 높기 때문에 코퍼스 안에서 단어의 분산도 고려해야하는데, 단어의 역문서빈도(IDF)라는 방정식으로 어떤 단어 t의 희박성, 문서 안에서 드문 정도를 측정 가능합니다.


IDF

IDF(역문서빈도) : 어떤 단어의 희박성을 측정하는 방정식



[1000개의 문서가 들어있는 코퍼스에서 단어 t에 대한 IDF 그래프]

단어가 희귀한 경우, IDF가 상당히 높게 나옵니다. 단어 t가 나오는 문서의 수가 증가할 수록, IDF가 급격히 감소해 점근선 1.0에 접근합니다. 대부분의 불용어는 거의 모든 문서에 나오므로 IDF가 거의 1에 가깝습니다.


단어빈도와 역문서 빈도의 결합(TFIDF)

TFIDF : 단어 빈도와 역문서 빈도(단어의 희소성)을 결합한 것입니다.

IDF : 문서(코퍼스) 전체에서 t라는 단어의 희소성을 의미하며, 코퍼스 전체 기준의 특징 벡터 집합입니다.

TFIDF : 어떤 문서에서 t라는 단어가 나오는 횟수로, 문서 기준의 특징 벡터입니다.


단어 주머니 표기법은 문서 안에 있는 모든 단어가 독립적인 특징이 될 수 있다고 가정합니다. 단어의 빈도와 희귀도에 따라 문서에 값을 할당합니다. TFIDF는 단어에 적용하기 위해 널리 사용되는 방법이지만 꼭 최적의 값은 아닙니다.



2017/06/18 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.10 증거와 확률(베이즈규칙)

2017/06/17 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.9 좋은 모델은 무엇인가?(비용과 효과)

2017/06/12 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.8 좋은 모델은 무엇인가?(기댓값)

2017/06/10 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.7 좋은 모델은 무엇인가?(분류자평가)

2017/06/07 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.6 유사도

2017/06/03 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.5 과적합화

2017/05/28 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.4 데이터에 대한 모델 적합화(수학 함수를 이용한 회귀분석과 로지스틱 회귀분석)

2017/05/27 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.3 데이터에 대한 모델 적합화(수학 함수를 통한 분류)

2017/05/24 - [Cyong's 마케팅/Data Science] - [Data Science] Ch2. 트리구조모델

2017/03/25 - [Cyong's 마케팅/Data Science] - [Data Science] Ch1. 예측모델링_정보전달하는 속성 찾아내기

마케팅이란 무엇일까요?


미국 마케팅협회(AMA)에 따르면 "마케팅이란 개인이나 조직의 목표를 만족시키는 교환을 창조하기 위한 아이디어, 상품, 서비스에 대해 개념 정립, 가격 설정, 프로모션, 유통을 계획하여 실행하는 프로세스다."라고 합니다. 좀더 쉽게 말하자면, 제품이나 서비스를 어떻게 만들어서 어떻게 판매할 것인가에 대한 방법론이라 할 수 있을 것입니다.

흔히 20세기를 마케팅의 시대라고 말합니다. 말 그대로 20세기는 소비의 시대였고, 물건을 만들어 판매하는 것이 기업의 존재 의의로 인식되어 왔으며, '소비', '소유'가 생겨나면서 가장 중요한 가치관이 된 것도 20세기의 특징이라고 말할 수 있을 것입니다. 이러한 상황에서 사람들에게 어떻게 소비시킬 것인가, 어떻게 물건을 만들어 어떻게 판매할 것인가라는 방법론이 필요하게 되었습니다. 이렇게 마케팅의 역사는 시작되었습니다. 마케팅이라는 용어가 일반 기업에 널리 알려진 것은 1980년대 후반이지만 그 호칭을 별개로 하더라도 본래 상품판매와 마케팅은 바늘과 실과 같은 관계입니다. 마케팅이라는 용어만 없었지 마케팅 활동은 아마도 인류가 물물교환이 이루어진 훨씬 예전부터 상품판매와 함께 존재했을 것이기 때문입니다.

일부에서는 마케팅을 판매 촉진책의 하나로 생각하기도 하지만 이 것을 잘못된 생각입니다. 마케팅은 생산에서 소비까지의 모든 활동이지, 결코 그 중의 특정한 뭔가를 가리키는 것이 아니기 때문입니다. 즉, 상품을 만드는 것도, 상품을 광고하는 것도, 그리고 프로모션을 하는 것 모두가 마케팅의 요소인 것입니다.

상품판매에만 결부시켰던 마케팅의 정의는 21세기에 들어서 또 한번 커다란 변화를 겪었는데요, 기업은 제품이나 서비스를 제공하는 것 이외에도 사회나 사회 구성원들에게 다양하게 공헌해야 한다는 것입니다. 기업이 다양한 사회 활동이나 기업 활동, 환경 문제나 사회 문제 등에 적극적으로 관여하는 것은 이러한 종합적인 활동에 의하여 소비자들의 평가를 받는 시대가 왔기 때문입니다. 현재는 기업 그 자체가 '브랜드'로서 평가되어, 그 기업의 브랜드 파워가 상품 하나하나의 판매와 매출에 영향을 줍니다. 개개의 상품 뿐만 아니라 기업 그 자체의 본질을 정확히 평가받는 것, 기업 스스로가 사회나 그 구성원들과 관계를 적극적으로 만들어 가는 것이 요구됩니다. 그리고 최근 디지털의 발달로 인해 그 공간적 제한이 허물어지고 있어 그 중요성을 더욱 중요해 지고 있습니다.

이렇게 생각하면 '기업과 소비자가 제품이나 서비스를 통해 더 좋은 관계를 맺어 가기 위한 방법론'도 마케팅의 정의가 되기 때문에 기업과 소비자 사이를 어어 주는 모든 활동을 마케팅이라고 할 수 있을 것입니다.

강릉에서 닭볶음탕으로 유명한 정아네 맛집에 다녀왔어요

2시쯤 갔는데 밖에서 30분 정도 기다렸어요ㅠㅠ
역시 인기있는 맛집에서 웨이팅은 필수인가봐요

들어와서 닭도리탕을 시키면 이때부터 다시 인내의 시간이~~
미리 안만들고 주문받고 만드시는 지 조금 시간이 오래 걸립니다...ㅎ
2~30분??뭔가 한국같지 않은 느긋한 분위기랄까요

내부 풍경은 맛있게 드시는 분들과 그 모습을 넉놓고 보고있는 분들...두 모습밖엔 기억에 안남네요 ㅎㅎ
아..담근술이 있었는데 그건 안파시는 거겠죠....?

기본 반찬은 요렇게~돼있어요

옆에서 맛있게 먹는 모습과 냄새, 소리에 지쳐갈 때 쯤..드뎌 나왔어요 도리도리 닭도리탕!

살아있는 낙지를 넣어주시구요~~

국물을 앞접시에 담고 적셔먹는다는 느낌으로 드시면 됩니다
은은한 한약재 맛이 일품이에요

먹으면 먹을수록 건강해지는 기분이가 들어요

양도 푸짐해서 너무 좋았어요

먹다보니 기다리는 사람들이 점점 늘었고 저희가 다 먹고 나올 때 쯤엔 다 팔아서 이제 더 이상 손님안받는다고 선언하셨어요...!!

혹시 너무 늦게 가면 못드실수도 있으니까 조금은 일찍 가셔야할 것 같습니다ㅎ
강릉에는 유독 완판 집들이 많은 것 같네요

닭볶음탕을 다 먹으면 필수코스인 칼국수를 먹어야겠죠??
한약재맛이 이 때쯤이면 점점 진해져 면에 그 맛이 스며들어 정말 맛있었어요
배는 부른데...계속 들어가는 그런 맛??ㅋ

마지막은 언제나 진리의 볶음밥입니다

볶음밥은 언제 어디서 먹어도 맛있는 것 같아요ㅋㅋ

뭔가 상대적으로 느린 것빼고는 만족스러운 맛집이었습니다
저처럼 성격급하신분들은 답답하실 수도 있겠지만...한번밖에 가보지 않은터라..그 날만 느릿느릿했을 수 도 있으니~이 글 보신 분들이 확인하고 말씀해주시면 좋을 것 같아요 ㅋㅋㅋ


+ Recent posts