Practice makes perfect

[BIGDATA] 빅데이터 개요 본문

빅데이터/BIGDATA Platform

[BIGDATA] 빅데이터 개요

kerpect 2020. 6. 7. 18:16

빅데이터란?

: 오늘날 정보통신 분야에서의 화두는 단연 빅데이터입니다.

 

1) 빅데이터는 기존 데이터보다 너무 방대하여 기존의 방법이나 도구로 수집/저장/분석 등이 어려운 정형 및 비정형 데이터들을 의미합니다.

 

2) 어떤 그룹에서는 빅데이터를 테라바이트 이상의 데이터라고 정의하기도 하며 대용량 데이터를 처리하는 아키텍처라고 정의하기도 합니다(서버 한대로 처리할 수 없는 규모의 데이터, 기존의 소프트웨어로 처리할 수 없는 규모의 데이터).

 

 

빅데이터의 특징

: 빅데이터의 특징으로는 크기(Volume), 속도(Velocity), 다양성(Variety)을 들 수 있습니다.

 

크기(Volume) : 크기는 일반적으로 수십 테라 바이트 혹은 수십 페타바이트 이상 규모의 데이터 속성을 의미합니다.

 

속도(Velocity) : 속도는 대용량의 데이터를 빠르게 처리하고 분석할 수 있는 속성입니다. 융복합 환경에서 디지털 데이터는 매우 빠른 속도로 생산되므로 이를 실시간으로 저장, 유통, 수집, 분석 처리가 가능한 성능을 의미합니다.  

 

다양성(Variety) : 다양성(Variety)은 다양한 종류의 데이터를 의미하며 정형화의 종류에 따라 정형, 반정형, 비정형 데이터로 분류할 수 있다.

 

이외에 빅데이터의 특징 Veracity(진실성),  Visualization(시각화), Value(가치) 까지도 빅데이터의 특징으로 볼 수 있습니다.

 

진실성(Veracity) : 주요 의사결정을 위해 데이터의 품질과 신뢰성 확보하는 것을 의미합니다.  

 

시각화(Visualization) : 복잡한 대규모 데이터를 시각적으로 표현하는 것을 의미합니다.

 

가치(Value) : 비즈니스 효익을 실현하기 위해 궁극적인 가치를 창출을 의미합니다.

 

->  “지구 상에선 지금 이 순간에도 방대한 크기(Volume)의 다양한(Variety) 데이터들이 빠른 속도 (Velocity)로 발생하고 있다. 빅데이터는 3V를 수용하며, 데이터의 진실성(Veracity)을 확보하고, 분석 데이터를 시각화(Visualization)함으로써 새로운 효익을 가져다 줄 가치(Value)를 창출하는 것이다. “

 

데이터 수집데이터 마이닝의 중요성이 부각되고 있습니다.

 

데이터 마이닝(Data Mining)이란? 

데이터의미를 찾아가는 위한 과정 하드웨어의 성능이 향상과 가격 하락으로 인해 대용량의 데이터가 싸여가면서 이러한 데이터를 통해서 어떤 특징을 가지고 있는지 찾기가 어려운데 빅데이터 기술을 통해서 데이터를 통한 통찰력으로 찾지 못한 특징과 패턴을 찾도록 만들어주는 이론과 알고리즘을 통해서 현기업의 문제점, 이윤창출을 위해서 찾아가는 것이 이유가 됩니다. 이러한 과정을 데이터 마이닝(Data Mining)이라 합니다.

- 컴퓨터 사이언스와 통계/수학 등이 함계 사용되며 흔히 인공지능이나 머신러닝의 기술이 사용됩니다.

 

빅데이터의 진행 순서

 

빅데이터 수집 모듈

- 빅데이터 시스템의 구성에 있어서 가장 중요합니다.

- Flume, Kafka 등이 있습니다.

 

 

데이터 저장/ 처리 모듈(하둡)

 

- 빅데이터를 다루는 처리 프로세스로서 병렬 처리의 핵심은 분할 점령(Divide and Conquer)입니다. 즉 데이터를 독립된 형태로 나누고 이를 병렬적으로 처리하는 것을 말합니다. 빅데이터의 데이터 처리란 이렇게 문제를 여러 개의 작은 연산으로 나누고 이를 취합하여 하나의 결과로 만드는 것을 뜻합니다. 대용량의 데이터를 처리하는 기술 중 가장 널리 알려진 것은 아파치 하둡(Apache Hadoop)과 같은 Map-Reduce 방식의 분산 데이터 처리 프레임워크입니다.

 

- HDFS(Hadoop Distributed File System) : 분산 파일 시스템(저장)

- MapReduce : 분산 처리 시스템(처리) -> 자바나 스크립트 언어, C++ 사용 -> Hive 나 Pig 언어들로 프로그래밍

- MapReduce의 개념 없이 하이 레벨에서 프로그래밍 대용량 데이터의 배치 프로세싱에 적합하고, 실시간으로 데이터를 분석하는 용도로 사용하기에는 버겁습니다.

실시간 데이터를 분석하는 용도로 사용되는 프로그램들은 존재합니다 기존 관계형 데이터 베이스 , NoSQL , 검색엔진 등을 통해서 지원합니다.

 

 

빅데이터의 활용 사례

 

1) 2008년 미국 대통령 선거

 2008년 미국 대통령 선거에서 버락 오바마 미국 대통령 후보는 다양한 형태의 유권자 데이터베이스를 확보하여 이를 분석, 활용한 '유권자 맞춤형 선거 전략'을 전개했습니다. 유권자 지도를 작성한 뒤 유권자 맞춤형 선거 전략을 전재하는 등 오바마 캠프는 비용 대비 효과적인 선거를 치를 수 있었습니다.

 

 

2) 대한민국 제 19대 총선

 여론 조사 기관들은 기존 여론조사 방식으로 예측한 2010년 제5회 지방 선거 및 2011년 재보궐선거의 여론조사 결과와 실제 투표 결과와의 큰 차이를 보완하고자 빅 데이터 기술을 활용한 SNS 여론 분석을 시행하였습니다. 하지만 20~30대에 쏠려 있었고, 수도권으로 한정되어 일치하는 한계를 드러내었습니다.

 

이외에도 경제 및 경영, 문화, 과학기술 및 활용 등 다양한 분야에서 사용되고 있습니다.

 

 

빅데이터의 문제점

: 바로 사생활 침해와 보안 측면에 자리하고 있습니다. 빅데이터는 수많은 개인들의 수많은 정보의 집합입니다. 그렇기에 빅데이터를 수집, 분석할 때에 개인들의 사적인 정보까지 수집하여 관리하는 빅브라더의 모습이 될 수도 있는 것입니다. 그리고 그렇게 모은 데이터가 보안 문제로 유출된다면, 이 역시 거의 모든 사람들의 정보가 유출되는 것이기에 큰 문제가 될 수 있습니다. 

 

- 페이스북 - 케임브리지 애널리티카 정보 유출 사건

페이스북-케임브리지 애널리티카 정보 유출 사건은 2018년 초에 케임브리지 애널리티카 회사가 수백만 페이스북 가입자의 프로필을 그들의 동의 없이 수거해서 정치적 선전을 하려는 목적으로 사용했다는 사실이 세상에 밝혀지면서 일어난 사회적 물의 및 정치적 논쟁입니다. 이 사건으로 인해 개인 정보에 대한 이해와 인식이 높아졌고, 기술 관련 기업들의 데이터 사용에 대해 엄격한 규제를 요청하는 분위기가 생겼습니다.

 

2019년 7월에 넷플리스에 개봉된 오리지널 다큐멘터리 <거대한 해킹> 에서 파슨스 디자인 스쿨의 부교수 데이비드 캐럴은 이렇게 이야기했습니다.

 

우리의 온라인 활동에서 나오는 데이터가 그냥 사라지진 않는다. 우리의 디지털 흔적들을 모으고 분석하면 매년 1조 달러 규모의 산업이 된다. 우린 이제 원자재가 된 것이다. 그럼에도 불구하고, 누구도 이용 조건을 읽어보려고 하지 않는다. 우리의 모든 교류 내역과 신용카드 결제, 웹 검색, 위치 정보, ‘좋아요’까지 우리의 신원과 결부되어 실시간으로 수집된다. 그 데이터를 구매하는 누구든, 우리의 감정의 고동에 곧바로 접속할 수 있다. 그들은 이런 지식으로 무장하고 우리의 관심을 끌기 위해 경쟁한다. 개인 맞춤형으로 각자 혼자만 보는 콘텐츠를 지속적으로 제공하면서. 이것은 우리 모두에게 해당되는 진실이다. -《거대한 해킹》 내용 中