계좌설정 및 주문의 수탁

증권사가 투자자인 위탁자로부터 매매거래의 위탁을 받아 처리하기 위해서는 사전에 위탁자와 매매거래계좌를 설정하여야 합니다. 증권사와 위탁자간 ‘매매거래계좌설정약정서’에 의하여 매매거래계좌 설정계약을 체결하고 증권사는 위탁자로부터 성명, 주민등록번호, 주소 등 기본 신상에 관한 사항을 확인 받아 기록, 유지하며, 자본시장법상 고객파악의 의무 및 적합성의 원칙에 따라 위탁자의 투자성향을 파악하여 투자를 권유해야 합니다.

증권사는 아래 3가지 방법으로 투자자 주문을 수탁하여 처리합니다.

첫째, 문서에 의한 수탁

위탁자가 직접 증권사를 방문하여 위탁주문의 내용을 직접 기재하고 기명날인 또는 서명한 주문표에 따라 처리합니다.

둘째, 전화, 팩스 등에 의한 수탁

주문접수자(증권사 임직원)가 위탁자 본인임을 확인한 후 주문표를 작성하여 기명날인, 서명하여 처리하고, 녹음 등의 방법을 이용하여 주문내용을 입증할 수 있는 자료를 보관합니다.

셋째, 전자통신방법에 의한 수탁

사전에 증권사와 전자통신방법에 의한 주문계약을 체결한 후 인터넷, 증권사 전훔광, 상업적 통신망 등을 이용하여 직접 주문을 제출합니다.


위탁증거금 및 위탁수수료

위탁증거금은 증권사가 투자자의 주문을 접수하면서 결제이행을 담보로 징수하는 금전을 말합니다. 위탁증거금은 자율사항이므로 증권사는 ‘위탁증거금징수기준’을 수립하여 공정하고 객관적인 방법으로 증거금을 적용합니다. 실제로 매수의 경우 위탁금액의 40%, 매도의 경우 매도증권 전량을 증거금으로 징수하고, 기관투자자 등 신용이 높은 전문투자자는 증거금을 징수하지 않습니다. 

다만, 시장관리를 위해 다음의 경우에는 의무적으로 증거금을 100% 징수합니다.

첫째, 거래소 시장감시규정에 의한 투자경고종목 및 투자위험종목에 대한 매수주문

둘째, 미수동결계좌의 경우 일정 기간 동안의 매수/매도주문비

셋째, 상장주식수가 5만주 미만인 종목에 대한 매도주문 등

매매거래 체결과정

거래소시장에서 증권의 매매거래가 체결되는 과정은 다음과 같은 단계로 이루어집니다.

첫째, 계좌개설 및 주문제출 단계로서 투자자가 증권시장께서 매매거래를 하기 위해서는 먼저 증권사에 매매거래계좌를 개설하여야 합니다. 그 후 투자자는 매매거래계좌를 개설한 증권사를 통하여 주문을 제출하고 증권사는 해당 주문을 접수순서에 따라 거래소에 호가로서 제출하게 됩니다.

둘째, 매매체결 및 체결결과 통보단계로서 회원으로부터 매매거래의 호가를 접수한 거래소는 업무규정에서 정하는 매매체결원칙에 따라 매매거래를 체결하고, 그 결과를 즉시 해당 회원에 통보하게 됩니다. 회원은 거래소가 통보한 체결결과를 다시 투자자에게 통보하게 됩니다.

셋째, 결제단계로서 우리 증권시장에서의 결제는 T+2일, 즉 매매거래가 발생한 날로부터 3일째 되는 날(휴장일은 제외)에 이루어지므로 투자자는 체결결과에 따라 결제일에 매수대금 또는 매도증권을 증권사에게 납부하고, 반대로 증권사는 투자자에게 매도대금을 지급하고 매수증권을 계좌에 입고해야 한다.

마지막으로, 증권사와 거래소 간에도 체결결과세 대한 결제가 매일 이루어지고 있어 증권사가 결제대금 또는 결제증권을 거래소에 납부하면 거래소가 이를 상대방 증권사세 지급함으로써 최종결제를 완료하게 됩니다.


매매거래 체결을 위한 전산시스템

거래소시장에서의 매매체결을 위한 전산시스템은 다음과 같이 구성되어 있다.

① 회원시스템

증권사가 투자자로부터 접수한 위탁매매 및 자기매매 주문을 처리하기 위한 전산시스템으로서 계좌관리, 주문접수, 호가제출, 예탁관리, 체결내역 통보 등의 업무를 수행합니다.

② 거래소(시장)시스템

거래소가 운영하는 전산인프라로서 증권사가 제출한 호가의 접수, 매매체결, 체결결과 통보, 결제자료 작성 등의 업무를 처리하며 접속시스템, 매매체결시스템, 청산결제 시스템 등으로 구분합니다.

③ 정보분배시스템

투자참고자료로 활용되는 가격, 호가, 매매동향 등 각종 시장정보를 증권사, 정보벤더 등에 공표/분배하는 시스템입니다.

④ 기타 전산시스템

상장공시시스템(KIND) :상장기업 현황 및 공시정보 제공(거래소)

시장감시시스템 : 시세 및 불공정거래 감시(거래소)

외국인투자관리시스템(FIMS) :외국인투자한도 관리 (금융감독원)

예탁결제시스템 : 계좌대체 및 예탁증권 관리(예탁결제원)


2017/07/15 - [Cyong's 경제&금융상식] - [증권투자 공부] CH1. 증권투자의 기본

2017/07/16 - [Cyong's 경제&금융상식] - [증권투자 공부] CH2. 유가증권시장

2017/07/22 - [Cyong's 경제&금융상식] - [증권투자 공부] CH3. 증권관련기관

여름 중 가장 덥다는 삼복! 오늘이 바로 중복인 7월 22일 인데요!

복날에 우리는 보양식을 주로 먹습니다. 복날은 절기에 포함되어 있지 않지만 언제부터 복날이 생긴걸까요? 복날은 여름철 가장 무더운 30일 ~ 40일 사이의 기간을 의미합니다. 서늘한 가을의 기운이 여름의 강한 더운 기운에 눌려 기를 펴지 못해 더위가 이어진다고 해서 복날의 '복'자는 복종의 의미를 가지는 '엎드릴 복(伏)'를 쓴다고 합니다. 복날의 무더위를 '삼복더위'라고 부르는데요.

초복은 1년 중 가장 낮이 긴 날인 하지로 부터 세번째 경일(庚日: '일진(日辰)을 정하는 60간지(干支) 중에서 경(庚)자가 들어가는 날, 중복은 네번째 경일, 말복은 입추로부터 첫번째 경일을 가리킵니다. 그래서 복날과 복날 사이는 열흘 간격이 됩니다.

...무슨말인지 도통 모르시겠죠???저도 그래요:D...

그냥 우리는 하지 지나면 좀 있으면 초복이고~ 10일 뒤에 중복

입추지면 10일 안에 말목이 있다는 건만 기억하면 될 거 같아요!

복날의 유래는 삼국사기에서 비롯되었다고 알려져 있습니다. 중국 진나라 덕공이 음력 6월에서 7월 사이에 세번 여름 제사를 지냈는데 거기에서 시작됐다는 설이 가장 유력합니다. 조선시대 궁중에서는 더위를 이겨 내라는 복날 의미로 높은 벼슬아치들에게 빙표를 줘 관의 장빙고에 가서 얼음을 타게 했다고 합니다. 또한 백성들은 '시나나 강에서 목욕을 하면 몸이 여윈다.'고 여겨 아무리 더워도 복날에는 목욕을 하지 않았다고...합니다.(왜죠?) 하지만 만약 초복에 목욕을 했다면 중복, 말복에도 똑같이 목욕을 해야 여위지 않는 다는 설이 전해졌다고 합니다.

삼계탕 레시티!

닭은 꽁지의 기름기 많은 부분을 자르고 찬물에 씻어 핏물을 빼고 건져 물기를 닦습니다.

찹쌀은 깨끗이 씻어 1시간 이상 불린 뒤 체에 받쳐 물기를 뺍니다. 

인삼은 노두 부분을 자른 뒤 씻어 물기를 닦습니다. 대파는 송송송송~썰고 달걀지단은 은 길이대로 곱게 채썰어 줍니다. 잣은 고깔을 떼고 준비합니다.

손질한 닭의 배에 찹살, 인삼, 마늘, 은행을 채웁니다.

닭 다리를 X자 모양으로 교차한 뒤 면실로 단단히 감아 고정합니다.

냄비에 물을 붓고 끓으면 황기를 넣어 푹 끓입니다. 노란색 황기물이 나오면 황기는 건집니다.

황기를 끓인 물에 배속을 채운 닭과 대추를 넣어 끓입니다.

끓이면서 생기는 거품은 마끔하게 수시로 걷어내면서 닭이 푹 무르게 익도록 40분 이상 끓입니다..

닭을 꼬치로 찔로 푹 들어갈 정도로 찹쌀이 완전히 익고 국물이 뽀얗게 우러나면 완성된 삼계탕을 그릇에 담습니다.

송송송 썬 대파와 달걀지단, 잣을 고명으로 올리고 소금과 후추가루로 간을 하면 끝~


이것 저것 너무 복잡하다!라고 생각하시면 요즘 마트에 팩하나에 모든 재료가 들어가 있는 게 있어서 그걸 이용하시면 되시고~

안되면 식당가면...시원하고 맛있게 즐기실 수 있으실 거에요~~

또 다른 대안으로는 우리 치느님이 있겠네요! 닭다리 하나 뜯고 맥주 한모금 마시며 즐기는 치맥!!

참고로

2017년 복날은

초복 7월  12일

중복 7월 22일

말복 8월 11일

혹시 오늘 보양식 드시지 않으셨다면 8월 11일에는 꼭 보양식 드시고 건강하게 여름 나길 바랄게요~

증권관련기관

한국거래소

거래소시장은 한국거래소가 개설한 유가증권시장과 코스닥시장을 말하는 것으로, 일정한 장소에서 정해진 시간에 계속적으로 상장유가증권의 주문이 집중되어 경쟁매매원칙 등 일정한 매매거래제도에 따라 조직적, 정형적으로 매매거래가 이루어지는 시장입니다.


금융투자협회

금융투자협회는 회원 상호간의 업무질서 유지 및 공정한 거래를 확립하고 투자자를 보호하며 금융투자업의 건전한 발전에 기여함을 목적으로 합니다. 금융투자협회 조직은 회원총회, 이사회 및 자율규제위원회로 구분하여 볼 수 있습니다. 먼저, 회원총회는 금융투자협회의 최고의사결정기구로서 이사회에 위임되지 않은 중요한 사항에 대하여 과반수 출석 및 1/2 찬성으로 심의, 의결한다. 회원은 금융투자업 인가, 등록 여부에 따라 정회원, 준회원으로 구분되고, 기타 금융투자업 관련 업무수행자는 특별회원으로 구분합니다.

금융투자협회는 회원 상호간의 업무질서 유지 및 공정한 거래를 확립하고 투자자를 보호하며 금융투자업의 건전한 발전을 위하여 다음과 같은 업무를 수행하고 있습니다 

첫째, 회원 서비스 및 금융투자업 발전을 지원하는 업무

둘째, 업무질서 유지 및 투자자보호(자율규제) 업무

셋째, 교육 및 전문인력 관리업무

넷째, 장외시장관리(채권및비상장주권등) 업무


한국예탁결제원

한국예탁결제원은 금융투자상품에 대한 예탁 및 결제기관으로서 증권의 발행 및 유통과 금융거래의 효율성을 높이고, 국민경제적인 측면에서는 사회적 물류비용을 절감시키는 자본시장의 인프라 역할을 합니다. 따라서 이러한 역할을 수행하기 위해 필요한 업무를 수행하는데 먼저, 고유업무로서 증권 등의 집중예탁 및 계좌간 대체, 증권인도와 대금지급(결제), 외국예탁결제기관과의 예탁, 계좌간 대체, 증권도와 대금지급 업무가 있고, 부수업무로서 보호예수, 증권 등의 담보관리, 집합투자재산의 취득, 처분 등에 관한 지시처리 업무가 있으며, 겸영업무로서 명의개서 대행업무, 증권대차, 증권대차의 중개, 법률에서 예탁결제원이 운영할 수 있도록 한 업무, 금융위로부터 승인받은 업무가 있습니다.

한국증권금융

한국증권금융은 증권시장에 자금을 공급하고 특정업무를 수행하여 자본시장 발전에 기여함으로써 국가경제발전을 지원할 목적으로 자본시장법에 근거하여 금융위원회의 인가를 받아 1955년 10월 설립된 상법상의 주식회사입니다.

증권금융의 기능은 증권산업 지원, 투자자예탁금 관리, 우리사주제도 관리, 일반 고객상품 관리의 네 부분으로 나눌 수 있습니다.

첫째, 증권산업 지원으로서 주식, 채권 등 증권의 발행, 유통, 중개 등에 필요한 자금 및 각종 서비스를 금융투자업, 금융투자업 관계기관 등에 전문적으로 제공함으로써 증권시장의 활성화와 효율화에 기여하는 것 입니다.

둘째, 투자자예탁금 관리로서 증권투자자가 주식매수 또는 선물 거래 결제 등을 위하여 금융투자업자에 일시적으로 맡겨놓은 투자자예탁금을 당해 회사로부터 전액 재예치받아 별도로 안전하게 보관, 관리함으로써 투자자보호 및 증권시장의 안정적 발전에 기여합니다.

셋째, 우리시주전담 수탁기관으로서 우리 시주조합원이 취득한 자시주를 예탁 받아 안전하게 보관, 관리하고, 우리시주조합의 결성과 운영을 지도, 홍보, 교육하며, 우리사주 취득에 필요한 자금을 지원함으로써 우리사주제도의 정착과 발전에 기여합니다.

넷째, 일반고객상품 개인 또는 법인이 보유하고 있는 주식, 채권, 수익증권, CD 등을 담보로 필요한 자금을 장기저리로 대출함은 물론, 공모/실권주의 청약과 관련하여 높은 금리와 함께 주식의 매매차익까지도 기대할 수 있는 예금상품을 취급하는 등 고객의 재테크에 기여합니다.


금융위원회 및 금융감독원

1998년 이전 우리나라의 금융감독은 금융권역별로 은행감독원, 증권감독원, 보험감독원, 신용관리기금 및 재정경제원 등으로 분산되어 은행권역의 경우 일반은행에 대한 감독, 검사권은 은행감독원이 보유하였고, 특수은행에 대한 감독, 검사권은 재정경제원이 보유하였습니다. 반면 증권권역의 경우 재정경제원이 인허가권을, 증권관리위원회와 증권감독원이 증권회사 등에 대한 승인, 동의, 명령권과 검사권을 각각 보유하였고, 보험권역의 경우 포괄적 감독권을 지닌 재정경제원이 보험감독원에 감독, 검사권 일부를 위임하고 보험감독원을 지시 감독하였습니다.

1970년 대 이후 설립된 비은행금융사의 경우에는 재정경제원이 포괄적 감독권을 보유하고 은행감독원 및 신용관리기금에 일부 회사쎄 대한 검사권을 위임하였으며 종합금융사, 신용카드사는 재정경제원이 직접 감독, 검사하고 상호신용금고, 신용협동조합, 신용보증기금, 리스사 등은 재정경제원이 감독권을 보유하고 은행감독원 또는 신용관리기금에 검사권을 위임하였습니다.

금융감독원의 예산은 금융위원회의 승인을 얻어야 하고 재원조달은 정부의 출연금, 한국은행의 출연금, 검사대상 금융회사의 출연금 및 분담금, 기타 다른 법령이나 정관에서 정한 수입을 통해 하고 있습니다. 

금융감독원의 주요 업무는 다음과 같습니다.

첫째, 금융회사의 업무 및 재산상황에 대한 검사

둘째, 금융회사 검사결과에 따른 관련 법령의 규정에 의한 제재

셋째, 금융위원회 및 소속기관에 대한 업무지원

넷째, 기타 관련 법령에서 금융감독원이 수행하도록 하는 업무


프리보드(Free Board) 시장

프리보드는 유가증권시장 및 코스닥시장께 상장되지 아니한 비상장주권의 매매거래를 위하여 금융투자협회가 자본시장법에 따과 개설, 운영하는 제도화된 장외시장입니다. 특히 비상장기업 중 성장단계에 있는 벤처기업 등 혁신형 기업들이 자본시장을 통하여 자금조달이 기능하도록 하기 위하여 개설된 시장이입니다.

프리보드의 기능은 다음과 같습니다.

첫째, 벤처기업 등 대다수 비상장 혁신형 기업의 자본 시장을 이용한 장기, 안정적 자금조달을 지원하는 것입니다.

둘째, 비상장기업의 발행주식에 대한 환금성을 부여하고, 프리보드 중심의 거래집중을 통한 거래의 편의성과 가격의 공정성을 제고하며, 기존 장외주식거래를 통해 발생할 수 있었던 불공정거래나 사기행위로부터 투자자를 보호하는 것입니다.

셋째, 고위험, 고수익을 원하는 투자자에게는 아이디어와 기술력이 있는 유망기업이 발행한 주식을 상장 이전의 단계에서 투자할 수 있는 새로운 투자기회를 제공하는 것입니다.

넷째, 성장단계에 있는 벤처기업에 투자한 초기투자자금 회수 및 재투자 촉진을 통한 벤처자금의 선순환을 유도하는 것입니다.

프리보드의 특징을 보면 다음과 같다. 

첫째, 규제를 최소화한 시장

둘째, 저비용 시장.

셋째, 투자자의 자기책임이 강조되는 시장


2017/07/15 - [Cyong's 경제&금융상식] - [증권투자 공부] CH1. 증권투자의 기본

2017/07/16 - [Cyong's 경제&금융상식] - [증권투자 공부] CH2. 유가증권시장


증권시장의 의의

금융시장은 자금을 수요자에게 공급해주는 방식에 따라 공급자와 수요자간의 직접 금융방식인 자본시장과 간접 금융방식인 은행대출 등에 의한 대부시장으로 구분할 수 있습니다. 자본시장은 선물, 옵션과 같은 파생상품시장을 포함하지만 일반적으로는 증권시장은 자금의 수요자인 기업이나 정부 등이 필요로 하는 자금을 금융기관이 아닌 투자자, 즉 자금의 공급자로부터 주식, 채권 등과 같은 증권을 메개로 직접 금융방식으로 조달하고, 이미 발행된 증권이 투자자 상호간에 유통되는 시장을 말합니다.


증권의 개념 및 종류

증권시장에서 매매거래의 대상이 되는 것은 증권입니다. 어떤 금융상품이 증권이냐 아니냐 하는 것은 중요한 의미를 갖는데, 그 이유는 증권에 해당되는 경우에는 증권시장에서 매매거래의 대상이 될 뿐만 아니라 자본시장법과 관련규정의 적용을 받게 되기 때문입니다. 유의할 점은 민법 및 상법상 유가증권의 개념과 구분할 필요가 있다는 것이다. 유가증권이란 “재산적 권리가 표창된 증서로서 권리의 행사에 증서의 점유를 요하는 것”을 말하는 데, 경제적 기능에 따라 어음, 수표 등과 같은 화폐증권, 선하증권, 창고증권 등과 같은 상품증권, 주식, 채권 등과 같은 자본증권 등으로 분류할 수 있습니다. 반면에 증권시장에서 발행, 유통되는 증권은 상법상 유가증권 중 자본증권에 속하지만 자본시장법에 규정된 것에 한합니다. 자본시장법령에서 증권으로 정의하고 있는 것은 아래와 같고 발행인은 내외국인을 모두 포함합니다.

채무증권

국채, 지방채, 특수채, 회사채 등 채권, 기업어음 그 밖에 유사한 것으로 지급청구권이 표시된 것을 의미합니다.

지분증권

주식(주권), 신주인수권증권, 증서, 법정설립 법인의 출자증권, 합자회사, 유한회사, 조합 등의 출자지분, 그 밖에 유사한 것으로 지급청구권이 표시된 것을 의미합니다.

수익증권

금전신탁계약에 의한 신탁업자 발행 수익증권, 투자신탁계약에 의한 집합투자업자 발행 수익증권, 그 밖에 유사한 것으로 신탁의 수익권이 표시된 것을 의미합니다.

투자계약증권

투자자와 타인간 공동사업에 금전 등을 투자하고 주로 타인이 수행한 공동사업 결과에 따른 손익을 귀속받는 계약상 권리가 표시된 것을 의미합니다.

파생결합증권

 기초자산의 가격, 이자율 등의 변동과 연계하여 정해진 조건 등에 따라 지급하거나 회수히는 금전 등이 결정되는 권리가 표시된 것으로 주식워런트증권, 주가연계증권 등이 파생결합증권에 해당합니다.

증권예탁증권(DR)

지분증권 등 다른 증권을 예탁받고 그 발행국이 아닌 국가에서 발행한 것으로 그 예탁증권의 권리가 표시된 것을 의미합니다.

증권시장의 구조

증권시장은 기업이나 정부 등 기관이 발행하는 증권이 최초로 투자자에게 매각되는 시장, 즉 발행시장과 이미 발행된 증권이 투자자들 사이에서 매매되는 시장, 즉 유통시장의 구조로 이루어져 있습니다. 발행시장과 유통시장은 상호의존적이고 보완적인 관계를 가지고 있습니다. 즉, 증권이 유통시장에서 원활하게 매매거래되어야 발행시장에서 증권이 활발하게 발행될 수 있고, 발행시장에서 증권의 공급이 원활하게 이루어져야 유통시장에서 매매거래가 활발하게 이루어질 수 있는 것입니다.


증권시장의 경제적 기능

유통시장은 중요한 경제적 기능을 갖습는다.

첫째, 발행된 증권의 시장성과 유통성을 높여 투자자들의 투자를 촉진시킴으로써 발행시장에서의 장기자본조달을 원활하게 합니다

둘째, 시장성과 유통성이 높으면 적정가격으로 즉시 현금화가 가능해 증권의 담보력을 높여 줌으로써 증권을 담보로 한 차입을 용이하게 합니다.

셋째, 다수의 투자자가 참여하는 자유경쟁시장이므로 유통시장에서 증권이 공정하고 적정한 가격을 형성할 수 있도록 장을 제공합니.

넷째, 유통시장에서 형성되는 가격은 발행시장에서 발행될 증권의 가격을 결정하는 기능을 합니다. 유통시장이 이러한 기능을 제대로 수행하기 위해서는 거래대상이 되는 증권의 발행물량이 많아야 하고 발행된 증권이 다수의 투자자에게 분산소유되어야 하며, 증권의 매매, 유통에 제약이 없어야 합니다.



2017/07/15 - [Cyong's 경제&금융상식] - [증권투자 공부] CH1. 증권투자의 기본

용어정리

증권투자

금융자산인 주식이나 채권 등을 유가증권 시장을 통하여 매매를 하는 것을 말합니다. 주식 투자자는 매매를 통하여 차익을 얻을 수 있으며, 보유지분에 따라 배당을 받을 권리가 있습니다. 채권 투자자는 매매를 통하여 차익을 얻을 수 있으며, 채권 발행시에 결정한 이자를 정기적으로 지급받을 권리가 있습니다.

자본형성

일정 기간 동안의 실물자본의 증가분을 투자 혹은 자본형성이라 합니다.

총자본 형성

자본형성 가운데에서 기존 자본의 감가상각을 포함한 것을 총자본 형성이라 합니다.

순자본 형성

자본형성 가운데 감가상각을 포함하지 않는 것을 순투자 또는 순자본 형성이라 합니다.

증권시장

자금의 수요자인 기업이나 정부 등이 필요로 하는 자금을 금융기관이 아닌 투자자, 즉 자금의 공급자로부터 주식, 채권 등과 같은 증권을 메개로 직접 금융방식으로 조달하고, 이미 발행된 증권이 투자자 상호간에 유통되는 시장을 말합니다.

포트폴리오

개별 유가증권의 집합을 의미하는데, 넓은 의미로 포트폴리오 구성을 자산배분이라 하며 은행예금, 주식, 채권, 부동산 등의 자산군에 투자자금을 배분하는 것을 뜻합니다. 좁은 의미의 포트폴리오 구성은 개별 자산군 중에서 특정 증권을 투자대상으로 선택하는 증권선택을 말합니다.

투자

적당한 위험과 함께 이에 상응하는 이득을 얻기 위하여 유가증권 시장에 참여하여 시간을 투입하거나, 자본을 제공하는 것을 말합니다.

투기

실수요자 입장이 아닌 시장참여자로서 위험의 크기와는 관계 없이 커다른 이득을 얻기 위하여 행동하는 것을 의미합니다.

기본적 분석

특정 채권이나 주식에 대한 내재가치를 구하고 이를 현재의 가격과 비교함으로써, 현재가치가 내재가치보다 작으면 과소평가되었다고 판단하고, 현재가치가 내재가치보다 크면 과대평가되었다는 판단을 하는 분석방법입니다.

기술적 분석

특정 주식에 대한 과거 주가변화로부터 일정한 규칙성을 갖는 패턴을 찾고, 이패턴을 이용하여 미래 주식가격을 예측하는 분석방법입니다.

증권투자 의사결정 과정

투자자가 유가증권 시장을 통하여 증권투자에 관한 의사결정과정을 하는 일련의 과정은 일반적으로 다음과 같은 5단계를 걸쳐 이루어집니다.

STEP1 - 투자정책의 수립

증권투자 의사결정 과정의 첫 단계는 투자자의 투자목표와 투자금액을 결정하는 것입니다. 일반적으로 높은 수익을 달성하고자 하려면 그와 대응하여 높은 위험을 감수하여야 하므로 투자정책을 수립할 때에는 목표로 하는 기대수익과 허용위험을 동시에 고려해야 합니다.

STEP2 - 유가증권에 대한 분석

다양한 유가증권을 대상으로 개별 증권의 가치를 분석하여 투자의 매력도를 결정합니다. 유가증권을 분석하는 방법에는 일반적으로 기본적 분석과 기술적 분석이 있습니다.

STEP3 - 유가증권에 대한 포트폴리오 구성

기본적 분석과 기술적 분석을 통해 다양한 증권 중에서 투자의 가치가 있는 특정 유가증권을 선택하고, 각 증권에 대한 투자비중을 정합니다.

STEP4 - 유가증권에 대한 포트폴리오 변경

유가증권에 대한 포트폴리오 변경은 정기적 또는 주기적으로 투자정책의 수립, 유가증권분석 실시, 유가증권에 대한 포트폴리오 구성 등 세 단계를 반복하여 포트폴리오의 구성내용을 변경하는 것을 말한다.

STEP5 - 유가증권 투자성과 평가

마지막 단계로 투자자가 당초 설정한 투자목표를 기준으로 얼마만큼 달성했는지를 각종 지표를 가지고 평가합니다. 투자성과를 평가할 때는 목표수익률과 실현된 수익률의 비교는 물론, 위험수준의 변화도 고려해야 합니다. 주식은 종합주가지수 수익률과의 비교를 포함한 기준수익률과 비교를 할 수 있으며, 채권도 채권지수나 예금금리와의 비교를 통하여 평가할 수 있습니다.

앞선 포스팅에서 프로모션 사례를 통해 결정 분석적 사고에 대해 알아보았습니다.

2017/07/09 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.13 결정 분석적 사고_분석공학(자선 단체 후원할 가능성이 높은 후원자 타겟팅)

이번 포스팅에서는 고객 이탈 관리에 대한 결정 분석적 사고를 알아보도록 하겠습니다.


사례) 고객 이탈관리(이동 통신사의 고객이탈)

1. 프로모션을 제안할 적절한 고객들을 타겟팅

case1) 계약 만료 시기가 다가와 이탈할 확률이 높은 고객들

case2) 이탈할 경우 통신사에 미치는 영향이 큰 고객들


CH13에서 알아봤던 방식으로 기대 수익을 알아보면,

타겟팅 기대 수익

 : 고객이 프로모션을 응할 때의 가치(기부금)

 : 고객이 프로모션을 응하지 않을 때의 가치

 : 고객이 프로모션을 응할 확률

(고객X가 기부할 확률*기부금 + 고객X가 기부하지 않을 확률*기부하지 않을 때 생기는 가치)

여기서, 이탈할 경우 발생하는 가치가 0이라고 가정하면 기대수익 이므로 남을 확률이 높은 고객을 타겟팅 하는 것이 가장 효과적입니다. 하지만 이 경우에는 앞선 사례와 다르게 타겟팅 하지 않았을 때 발생할 수 있는 수익도 반영하여 계산해야합니다. 비즈니스 문제가 가지는 특성에 따라 변수가 달라지기 때문입니다.


수정된 타겟팅 기대 수익

- 타겟팅한 고객 X가 통신사에 남을 때의 수익

- X를 타겟팅하지 않을 때 수익

따라서 값이 가장 큰 고객이 수익이 가장 많이 발생할 고객이라 기대하고 프로모션을 진행하면 됩니다.


기대값 프레임워크를 통한 방식은 복잡하지만 목적에 집중하면서 우리의 사고를 구조화해 체계적으로 생각하고 정교한 분석결과를 만들어 낼 수 있습니다.


데이터 분석에서 고려해야 할 사항

데이터 분석에 필요한 표본을 얻기 위해서는 각종 변수를 고려해야만 합니다.

- 환경적 변화

비즈니스 요구는 시간과 장소 구분없이 긴급하게 발생합니다.

- 가정의 축소 및 간단화 필요

새로운 프로모션으로 인한 데이터 수집의 어려움

- 과거에 실행했던 프로모션들 중 비슷했던 프로모션 이력 탐색

다양하고 많은 데이터 확보의 필요

- 데이터를 자산으로 인식하는 자세 필요

- 데이터 확보를 위한 투자 필요


2017/07/09 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.13 결정 분석적 사고_분석공학(자선 단체 후원할 가능성이 높은 후원자 타겟팅)

2017/07/03 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.12 텍스트 표현 및 마이닝(엔트로피와 n-그램)

2017/07/02 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.11 텍스트 표현 및 마이닝(IDF와 TFIDF)

2017/06/18 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.10 증거와 확률(베이즈규칙)

2017/06/17 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.9 좋은 모델은 무엇인가?(비용과 효과)

2017/06/12 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.8 좋은 모델은 무엇인가?(기댓값)

2017/06/10 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.7 좋은 모델은 무엇인가?(분류자평가)

2017/06/07 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.6 유사도

2017/06/03 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.5 과적합화

2017/05/28 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.4 데이터에 대한 모델 적합화(수학 함수를 이용한 회귀분석과 로지스틱 회귀분석)

2017/05/27 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.3 데이터에 대한 모델 적합화(수학 함수를 통한 분류)

2017/05/24 - [Cyong's 마케팅/Data Science] - [Data Science] Ch2. 트리구조모델

2017/03/25 - [Cyong's 마케팅/Data Science] - [Data Science] Ch1. 예측모델링_정보전달하는 속성 찾아내기


기본개념 : 데이터 과학으로 비즈니스 문제를 해결하려면 분석 공학에서 시작합니다. 가용한 데이터, 도구 기법에 기반하여 분석적 해결책을 설계합니다.

응용기법 : 데이터 과학 해결책을 설계하기 위한 프레임 워크로서의 기댓값.


비즈니스 문제에서의 데이터 과학의 한계

복잡하고 다양한 변수 : 원칙에 따른 기법만으로 해결불가합니다.

제대로 표현되지 않은 데이터 : 정보나 지식 추출불가합니다.

데이터 과학만으로 비즈니스 문제를 해결하기 어렵습니다. 비즈니스 문제를 해결하기 위해서는 비즈니스에 대한 이해(분석공학)와 데이터 이해(데이터 과학)이 동반되어야 합니다.

* 데이터 과학 : 원칙에 따른 기법들을 이용해 데이터로 부터 정보나 지식을 뽑아내는 학문입니다.

* 분석공학 : 사용가능한 데이터 도구기법에 기반하여 분석적으로 해결책 설계하는 것을 의미합니다.


아래의 사례를 통해 비즈니스 문제를 도구를 통해 하위문제로 분할하고 각 하위 문제를 유효성이 입증된 기법을 이용해 해결, 원래의 문제를 해결하기 위해 각 하위문제 해결책을 통합함으로써 도구가 어떻게 작동하는지 확인하도록 하겠습니다.

기댓값 프레임워크

데이터 분석 문제에 대한 생각을 구조화하는데 상당히 유용한 툴로 1.문제의 구조화 2.데이터에서 추출할 수 있는 분석 항목 3.다른 재원으로 부터 가져와야 할 분석 항목으로 구성되어 있습니다.


사례) 자선 단체 후원할 가능성이 높은 후원자 타겟팅

1. 우리의 목표는 기부 할 사람을 타겟팅 하는 것인가?

후원요청 편지에 응할 가능성이 높은 후원자를 타겟팅 → 응답의 형태가 다양 (기부자마다 기부 금액이 다를 수 있습니다.(A는 10만원 B는 1만원)

같은 비용을 소요한다면 기부 금액이 큰 고객을 타겟팅 하는 것이 효과적입니다.

2. 기부액을 최대화하는 것인가

편지를 보내는 비용이 1천원일 때 많은 이에게 편지를 보냈으나 대부분이 1천원씩만 기부할 경우, 실제 모금된 후원금은 거의 없는 상황이 됩니다. 결국 우리의 목표는 후원수익(비용을 공제한 순수 후원금)의 최대화일 것입니다. 즉, 모금된 전체 기부금 > 전체 편지 발송비용이 되는 것입니다.

이 경우, 기댓값 프레임워크를 사용하면 데이터 분석을 구조화 할 수 잇습니다.


타겟팅 기대 수익

 : 고객이 프로모션을 응할 때의 가치(기부금)

 : 고객이 프로모션을 응하지 않을 때의 가치

 : 고객이 프로모션을 응할 확률

(고객X가 기부할 확률*기부금 + 고객X가 기부하지 않을 확률*기부하지 않을 때 생기는 가치)

하지만 위의 방법은 고객이 동일한 후원금을 납부한다는 전제가 필요하므로, 고객마다 납부한 금액을 달리 적용할 수 있도록 공식을 수정해야만 합니다.


수정된 타겟팅 기대 수익

 : 고객X가 프로모션을 응할 때의 A가 기부하는 금액 - 후원을 요청하는 데 드는 비용

 : (고객X가 프로모션을 응하지 않을 때) 후원을 요청하는 데 드는 비용

 : 고객이 프로모션을 응할 확률

(고객X가 기부할 확률*고객X의 기부금 + 고객X가 기부하지 않을 확률*프로모션 비용)
,값은 회귀 분석 모델링을 통해서 구할 수 있습니다. 과거 이력 데이터를 분석, 대략적인 금액 확인 가능합니다. 단, 과거에 캠페인에 응했던 고객들에 대한 데이터만 활요앻야 합니다. 대부분의 고객들은 캠페인에 응하지 않으므로 기부할 금액이 0이 되는 경우가 발생할 수 있기 때문입니다. 결국 수익이 언제나 0보다 크기를 원하므로 다음과 같은 부등식을 유도할 수 있습니다.


수정된 타겟팅 기대 수익 적용

(고객X가 기부할 확률*고객X의 기부금 > 프로모션 비용)

즉, 예상 기부액이 기부 요청에 들어가는 비용보다 커야 합니다. 이렇듯 기댓값 프레임 워크는 복잡한 비즈니스 문제를 조금 더 단순한 하위문제로 분할하는데 도움이 될 뿐만 아니라, 이 하위 결과들을 어떻게 결합해야 하는 지 알려줍니다.



2017/07/03 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.12 텍스트 표현 및 마이닝(엔트로피와 n-그램)

2017/07/02 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.11 텍스트 표현 및 마이닝(IDF와 TFIDF)

2017/06/18 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.10 증거와 확률(베이즈규칙)

2017/06/17 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.9 좋은 모델은 무엇인가?(비용과 효과)

2017/06/12 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.8 좋은 모델은 무엇인가?(기댓값)

2017/06/10 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.7 좋은 모델은 무엇인가?(분류자평가)

2017/06/07 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.6 유사도

2017/06/03 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.5 과적합화

2017/05/28 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.4 데이터에 대한 모델 적합화(수학 함수를 이용한 회귀분석과 로지스틱 회귀분석)

2017/05/27 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.3 데이터에 대한 모델 적합화(수학 함수를 통한 분류)

2017/05/24 - [Cyong's 마케팅/Data Science] - [Data Science] Ch2. 트리구조모델

2017/03/25 - [Cyong's 마케팅/Data Science] - [Data Science] Ch1. 예측모델링_정보전달하는 속성 찾아내기


맛있는 커피원두와 그 특징을 지역별로 알아보도록 하겠습니다.

중남미 지역(Central & South America)

온두라스 산타엘레나 클레멘테 바스케츠(Honduras Santa Elena Clemente Vasquez(Micro Lot))

복숭아의 달콤한 향과 은은한 산미, 초콜릿의 단맛, 견과류의 고소함, 헤이즐럿의 여운이 남는 커피입니다.

브라질 세하도(Brazil Cerrado)

버터를 발라 볶아낸듯한 고소한 아몬드의 맛과 다크초코릿의 묵직한 질감을 오래 느낄 수 있는 커피입니다.

콜롬비아 후일라 수프리모(Colombia Huila Supremo)

구수한 곡류의 향, 쌉싸름한 아몬드의 고소함과 풍부한 입자감이 느껴지는 조화로운 맛의 커피입니다.

콜롬비아 엘 베르헬(Colombia El Vergel Micro Lot)

라임과 같은 풍부한 향과 산미, 진한 카라멜의 단맛과 초콜릿의 질감, 호두와 캐슈넛의 고소함을 느낄 수 있는 커피입니다.

과테말라 안티구아 SHB(Guatemala Antigua SHB)

장작불에 구워낸 듯한 마른 옥수수의 구수함. 입안에 퍼지는 스모키함과 상쾌함, 다크초콜릿처럼 진한 단맛이 긴 여운으로 남는 커피입니다.

코스타리카 따라주 SHB(Costa Rica Tarrazu SHB)

커피의 깊은 향 속에 잘 익은 대추의 단맛과 곡류의 구수함이 조화를 이룬 부드럽고 깔끔한 커피입니다.

멕시코 디카페인(Mexico Select Water Decaffeintion)

오렌지, 레몬 계열의 상큼함과 과일향, 아몬드와 같은 너트의 고소함이 강조되며 부드러운 바디감, 허니와 초콜릿의 후미가 여운이 남는 커피입니다.

아시아지역(Asia)

인도네시아 만델링 G-1(Indonesia Mandheling G-1)

한 여름의 짙은 풀향과 수마트라 섬을 연상시키는 흙내음, 부드럽게 감싸는 과실주의 향미, 진한 초콜릿의 여운이 남는 커피입니다.


아프리카지역(Africa)

브룬디 소개스탈 키룬도(Burundi Sogestal Kirundo GP)

보리의 구수함, 달콤한 과일의 산미, 민트향과 함께 찾아오는 새벽공기의 상쾌한 여운이 남는 커피입니다.

탄자니아 킬리만자로 AA(Tanzania Killimanjaro Moshi AA)

블랙 카카오의 쌉싸름함, 베리 계열의 과일향, 와인의 신맛과 견과류의 고소함, 캔디의 단맛이 조화를 이룬 커피입니다.

케냐 키암부 AA(Kenya Kiambu AA)

자몽 계열의 과일향, 포도주의 와일드한 신말과 다크 초콜릿의 쌉싸름함, 산미와 단맛이 조화로운 커피입니다.

에티오피아 시다모 내추럴 G3(Ethiopia Sidamo Natural G3)

향긋한 꽃 내음과 입안에 퍼지는 캔디의 묵직하고 진한 달콤함, 베리와 같은 상큼 달콤함이 너트의 고소함으로 깔끔하게 마무리되는 부드러운 질감의 커피입니다.

에티오피아 예가체프 워시드 G2(Ethiopia Yirgacheffe Washed G2)

유칼립투스와 같은 허브향, 상큼한 라임과 자몽에서 느껴지는 시트러스 맛과 향, 부드럽고 가벼운 질감이 커피라기보다는 샹그리아가 연상되는 풍성한 향을 가진 커피입니다.

IDF와 엔트로피의 관계

엔트로피는 어떤 집합에 적용해 무질서 정도를 측정합니다. 엔트로피는 데이터를 분류할 때 사용합니다. 순수하게 한가지 속성에 대해 데이터를 분류하고자 할 때 ,이 데이터가 우리가 분석하려는 속성에 대해 다른 값들이 얼마나 뒤섞여 있는 지를 나타내는 것이 무질서라고 하며, 이런 무질서 정도를 측정하는 것이 엔트로피입니다.


는 집합 안에서 속성 i의 확률

이면 집합 안의 모든 항목이 i속성을 가진 경우

이면, 집합 안에서 i속성을 가진 원소가 하나도 없는 경우


IDF와 엔트로피는 둘 다 집합 안에서 속성이 얼마나 섞여 있는지를 측정하기 때문에 비슷합니다.


p(t) : 단어 t가 문서에서 나타날 확률

p(t) 추정확률 : p로 표시

문서 집합에서 단어 t의 유무에 대한 확률로 생각하면 T가 들어있을 확률은 p이고 T가 없을 확률은 1-p입니다.

not_t라는 가짜 단어를 만들어 본다면, not_t는 단어 t가 없는 문서에 가상으로 존재하는 단어를 의미합니다.

위의 식을 그래프로 표현하면, p(t)=.5를 축으로 서로 대칭을 나타냅니다.

2진 계층인 p₂=1-p₂의 엔트로피 공식 

t단어가 포함되어 있는 확률 : p

t단어가 포함되어 있지 않은 확률 : 1-p

을 대입하면

여기에 IDF(t)와 IDF()not_t)로 대체하면,


코퍼스에 단어 t가 나타날 확률에 기반해 IDF(t)와 IDF(not_t)의 기댓값으로 엔트로피를 표현한 것입니다.


엔트로피를 그래프로 그려보면 IDF 단어 t의 희박성을 나타내는 방정식의 그래프는 엔트로피 곡선과 일치합니다.

    


단어주머니보다 정교한 기법

더 정교하게 문서 안의 텍스트, 단어를 처리하는 방법으로 n-그램 순열이 있습니다.

n-그램은 단어 순서가 중요한 경우, 단어 순서에 대한 정보를 보관할 수 있도록 인접한 단어들의 순서까지 포함하는 표현 기법입니다.

ex) The quick brown fox jumps

단어주머니 - quick, brown, fox, jump 라는 단어 집합

n-그램 - quick_brown, brown_fox, fox_jump 3개의 토큰으로 변환

n-그램은 개별단어보다 특정 문장이 중요한 경우에 사용합니다. 단, 특징 집합의 크기가 상당히 커진다는 단점이 있습니다.

※ 바이그램 : 인접한 쌍, 토큰


개체명 추출기

문장 추출 시, 문서에서 많이 볼 수 있는 개체명을 인식해야 하는 경우가 발생합니다. 예를 들어 Silicon Valley / New York Mets / Game of Thrones 등 의 고유명사말이죠. 이런 어구를 인식할 수 있도록 개체명 추출기라는 전처리기를 사용합니다. 개체명 측정기가 제대로 작동하기 위해서는 커다란 코퍼스를 갖고 있거나, 수작업으로 고유한 명사들을 입력해야 합니다. 개체명 추출기는 고유명사를 개체명으로 인식하기 위해 풍부한 고유명사 입력하는 것이 필요하고 또는 학습이 필요합니다.


주제모델

문서에 등장하는 단어나 개체명으로 직접 모델을 만드는 방법은 언제나 최적의 결과가 나오는 것은 아닙니다.

주제모델 : 코퍼스 안에서 먼저 주제들을 별도로 모델링하는 것, 단어들을 직접 사용하지 않고 각 주제에 맞게 단어들을 묶어 맵핑하는 것을 말합니다. 예를 들어 Korean War라는 주제를 중심으로 연관성 있는 단어들을 묶는 것입니다. 주제모델을 만드는 기법으로는 잠재의미 색인과 같은 행렬 인수분해 기법과 잠재 디리클레 할당과 같은 확률적 주제 모델이 있습니다.



2017/03/25 - [Cyong's 마케팅/Data Science] - [Data Science] Ch1. 예측모델링_정보전달하는 속성 찾아내기

2017/05/24 - [Cyong's 마케팅/Data Science] - [Data Science] Ch2. 트리구조모델

2017/05/27 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.3 데이터에 대한 모델 적합화(수학 함수를 통한 분류)

2017/05/28 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.4 데이터에 대한 모델 적합화(수학 함수를 이용한 회귀분석과 로지스틱 회귀분석)

2017/06/03 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.5 과적합화

2017/06/07 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.6 유사도

2017/06/10 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.7 좋은 모델은 무엇인가?(분류자평가)

2017/06/12 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.8 좋은 모델은 무엇인가?(기댓값)

2017/06/17 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.9 좋은 모델은 무엇인가?(비용과 효과)

2017/06/18 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.10 증거와 확률(베이즈규칙)

2017/07/02 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.11 텍스트 표현 및 마이닝(IDF와 TFIDF)


텍스트

문서 안의 단어(텍스트)는 자유로운 형태이고, 차례대로 나오며, 각 문서는 하나의 객체로 보지만, 특징에 대해선 알 수 없습니다. 데이터의 또 다른 형태이며, 데이터로 활용하기 위해선 변환이 필요합니다. 텍스트는 '비구조 데이터'라 컴퓨터는 텍스트를 인식하기 어렵습니다. 때문에 컴퓨터가 인식할 수 있도록 가공을 할 필요가 있습니다. 텍스트를 컴퓨터가 인식할 수 었도록 데이터로 표현(변환)하는 방법은 특징 벡터 형태로 변환하는 것입니다. 


텍스트 처리 기본 용어

토큰 : 하나의 단어

코퍼스 : 문서를 모아 놓은 것, 문서의 묶음

단어주머니 : 개별적인 단어의 집합(문법, 단어순서, 문장구조, 무시). 단어주머니는 모든 단어가 문서의 키워드가 될 가능성이 있습니다. 표현이 매우 간단하며, 생성하는데 연산이 적게 소요됩니다. 단어주머니를 사용하면 여러  종류의 작업에 잘 맞습니다. 컴퓨터의 단어 인식하는 방법으로는 문서에 토큰이 있으면 1, 없으면 0으로 표현합니다.


단어빈도

단어의 횟구(빈도) : 문서 안에서 단어가 나오는 횟수 - 해당 단어의 중요도

위의 표를 만들기 위해 어근을 기준으로 단어 변화가 필요합니다. 방법은 아래와 같습니다.

ⓐ 모든 단어를 소문자로 표기합니다.

ⓑ 형용상 복수형의 단어를 단어 어근으로 변경합니다.

ⓒ 불용어 제거합니다. 불용어란 인터넷 검색 시, 검색용어로 사용되지 않는 용어(관사/전치사/조사/접속사 등)를 뜻합니다.


앞서 말한대로, 단어빈도는 하나의 문서 안에서 어떤 단어가 얼마나 많이 나오는 지를 측정하는 것으로 단어와 문서 간의 관계를 나타내기 위한 것입니다. 문서 안에서 단어의 비중을 결정 시, 특정 단어가 너무 빈번하게 나오면 안됩니다. 그래서 2가지 측면에서 추가적으로 검토가 필요합니다.

ⓐ 단어가 너무 희귀하면 안됩니다.

ⓑ 단어가 너무 흔해도 안됩니다.


단어가 나온 문서의 수가 적을수록 단어가 문서에 중요할 가능성이 더 높기 때문에 코퍼스 안에서 단어의 분산도 고려해야하는데, 단어의 역문서빈도(IDF)라는 방정식으로 어떤 단어 t의 희박성, 문서 안에서 드문 정도를 측정 가능합니다.


IDF

IDF(역문서빈도) : 어떤 단어의 희박성을 측정하는 방정식



[1000개의 문서가 들어있는 코퍼스에서 단어 t에 대한 IDF 그래프]

단어가 희귀한 경우, IDF가 상당히 높게 나옵니다. 단어 t가 나오는 문서의 수가 증가할 수록, IDF가 급격히 감소해 점근선 1.0에 접근합니다. 대부분의 불용어는 거의 모든 문서에 나오므로 IDF가 거의 1에 가깝습니다.


단어빈도와 역문서 빈도의 결합(TFIDF)

TFIDF : 단어 빈도와 역문서 빈도(단어의 희소성)을 결합한 것입니다.

IDF : 문서(코퍼스) 전체에서 t라는 단어의 희소성을 의미하며, 코퍼스 전체 기준의 특징 벡터 집합입니다.

TFIDF : 어떤 문서에서 t라는 단어가 나오는 횟수로, 문서 기준의 특징 벡터입니다.


단어 주머니 표기법은 문서 안에 있는 모든 단어가 독립적인 특징이 될 수 있다고 가정합니다. 단어의 빈도와 희귀도에 따라 문서에 값을 할당합니다. TFIDF는 단어에 적용하기 위해 널리 사용되는 방법이지만 꼭 최적의 값은 아닙니다.



2017/06/18 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.10 증거와 확률(베이즈규칙)

2017/06/17 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.9 좋은 모델은 무엇인가?(비용과 효과)

2017/06/12 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.8 좋은 모델은 무엇인가?(기댓값)

2017/06/10 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.7 좋은 모델은 무엇인가?(분류자평가)

2017/06/07 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.6 유사도

2017/06/03 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.5 과적합화

2017/05/28 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.4 데이터에 대한 모델 적합화(수학 함수를 이용한 회귀분석과 로지스틱 회귀분석)

2017/05/27 - [Cyong's 마케팅/Data Science] - [Data Science] Ch.3 데이터에 대한 모델 적합화(수학 함수를 통한 분류)

2017/05/24 - [Cyong's 마케팅/Data Science] - [Data Science] Ch2. 트리구조모델

2017/03/25 - [Cyong's 마케팅/Data Science] - [Data Science] Ch1. 예측모델링_정보전달하는 속성 찾아내기

+ Recent posts