과거에는 인류가 만든 데이터의 누적분은 5엑사바이트 수준이었지만, 최근에는 하루에 그 정도 분량의 데이터가 발생되고 있으며, 2020년에는 지금보다 50증가하고 서버가 10배 이상 필요하게 될 것이라는 전망됩니다. 이렇게 방대한 데이터의 발생과 분석 및 활용의 필요에 의해, 기존 정형 데이터 외에 비정형 데이터의 처리까지 포함하면서 기존 방식으로는 처리하기 힘든 규모의 데이터 처리를 언급하는 빅데이터라는 용어가 발생되었습니다. 그리고 스마트폰의 발달과 함께 소셜, 사물인터넷(IoT : Internet of Things), 라이프로그 데이터 등 다양한 분야들이 결합되면서 빅데이터의 영향이 증가하고 있습니다. 또한 작년에 벌어진 '이세돌'과 '알파고'의 바둑대결을 통해 빅데이터는 세간의 관심을 받고 있습니다.


빅데이터의 개념

페타, 제타 바이트 수준의 대용량 데이터를 실시간에 가깝게 조회하고, 패턴 분석을 통해 활용하는 것을 빅데이터라고 할 수 있습니다. 여기서 얼마의 시간을 실시간이라 정의 내리는 가에는 다소 의견이 분분하지만, 어쨌든 데이터에 조회를 실시간에 가깝게 할 수 있어야 Advanced Analytics 분야에서 활용할 수 있습니다.


Advanced Analytics기법의 종류로는 데이터마이닝과 시뮬레이션, 최적화 등이 있으며, 이외에도 분석기법이 새롭게 나타나 각광받게 될 수 있습니다. 실시간 처리가 필요한 이유는 생활 속에서 수많은 데이터가 실시간성으로 발생되고 있으므로 분석이 보다 빨리 이뤄져야 활용도가 높아지기 때문입니다. 그러나 여기에는 개인정보 침해라는 위험요소가 공존하고 있어서 이에 대한 논란 및 법률정비가 이슈화되고 있다. 결국 빅데이터는 현안 사회문제 및 경제활동에 적절하게 활용해 긍정적으로 대응할 수 있어야 큰 가치를 창출할 수 있다고 봅니다.


빅데이터 크기

데이터의 크기는 특히 IoT에서 급증하게 되리라 예측된다. 과거 데이터의 질이 중요하게 다뤄지던 흐름에서 이제는 양이 중요한 가치로 평가되는 추세입니다. 이전에는 데이터 자체가 제한적이다 보니 질이 중요했으며 데이터를 이해하는데 통계적 관점에서 인과관계의 설명이 주가 되었습니다. 그러나 이제는 상관관계로 얼마나 설명되는가를 요구하는 시대로 변해 샘플링보다는 전수 데이터를 선호하게 되었습니다. 처리속도가 높아져 굳이 샘플링을 할 필요가 없어진 것입니다.

그러나 빅데이터라 해서 무조건 전체 데이터를 분석할 필요는 없고, 되도록이면 전수 데이터를 활용하는 것을 '선호한다' 정도로 생각하시면 좋을 것 같습니다. 아무리 전수 데이터가 좋은 정보를 제공할 수 있을지라도 이를 분석할 수 있는 가용 시스템이나 비용에 제약이 있다면 여전히 샘플링이 효율적이기 때문입니다.



빅데이터의 종류

빅데이터의 종류에는 정형데이터(즉각적 사용이 용이함), 비정형데이터(추가적인 가공이 필요함), 반정형데이터(추가적인 가공이 필요하나 마크업 언어처럼 규칙이 필요함)이 있습니다. 


빅데이터의 특징 및 요건

3V : Volume, Variety, Velocity.

4V : Volume, Variety, Velocity, Value.


흔히 빅데이터의 특성으로 3V를 언급합니다. 거기에 최근에 4번째 요소인 Value 와 빅데이터의 특성인 Variety와 Volume은 비용요소이지만 활용성을 고려한 창조적인 아이디어와 결합되면 중요한 가치로 전환됩니다. 예를 들어 기업의 입장에서는 다양한 채널에서의 고객행동패턴 정보를 보면 데이터 처리비용 증가로 연결됩니다. 그러나 고객의 채널에서의 행동패턴이 각기 다른 점을 활용하여 고객의 성향을 알 수 있다면 우리는 비용 이상의 가치를 얻어내 새로운 가치를 용이하게 창출할 수 있습니다. 또한 Velocity는 신속하게 데이터를 제공해주어서 기존에 미처 대응하지 못한 일들을 처리할 수 있게 됨에 따라 사고나 재해를 예방하거나 실시간으로 추가 서비스를 통해 편리성을 제공하는 등의 다양한 일을 처리할 수 있게 됩니다.

+ Recent posts