서브비쥬얼이미지6

칼럼

HOME > 학술 웹진 social 2.0 > 칼럼

발표주제 빅데이터와 프라이버시 -1-
작성자 강장묵 조회수 7085
작성일 2013.06.24

 

빅데이터와 프라이버시 -1-

강장묵

고려대학교 사범대 컴퓨터교육 정보창의교육연구소

 

 

빅 데이터의 정의

빅 데이터 (Big Data)를 정의할 때, 흔히 3가지 V를 말한다. 첫째, Volume이다. 여기서 볼륨이란 데이터의 양을 말한다. 빅데이터는 말 그래도, 대단위의 거대한 데이터 양을 말한다. 정량적으로 실제로 기존의 데이터와 비교할 수 없을 만치 큰 데이터가 빅 데이터이다.

둘째, Velocity이다. 여기서 속도란 데이터의 발생 속도를 뜻한다. 동시에 데이터의 갱신 즉 현행화(update) 빈도를 뜻하기도 한다. 데이터가 빠르게 생성되고 실시간으로 업데이트되는 것으로는 무엇이 있을까? 개인의 주민등록번호나 실명은 평생 잘 바뀌지 않는다. 바꾸기 위해서는 법원의 판결을 받아야 하는 복잡함이 있기 때문이다. 반면, 범죄인의 발목에 전자 발찌를 착용한 경우에는 일정 시간 간격 동안 끊임없이 변화하는 위치 값으로 자주 업데이트되어야 할 것이다. 그렇다고 해서 주민등록번호와 실명이 의미 없어지는 것은 아니다. 오히려 변화가 없는 주민등록번호와 실명에 전자발찌 착용자의 실시간 위치 값이 결합되어 예전보다 더 강력한 데이터로 변화하는 것이다. 빅 데이터의 힘은 기존 데이터와의 결합에 있다.

 

<그림 1> 빅데이터의 5가지 V

 

 

셋째는 Variety이다. 버라이어티이란 과거의 정형화된 데이터 뿐만 아니라, 비정형화된 데이터까지를 포함한다는 뜻이다. 즉 빅 데이터의 스펙트럼이 넓어졌다. 과거에는 고객정보라는 정형화된 데이터만 기업에게 중요했다. 이 정보들은 주로 주민등록번호에 이름 그리고 직장, 휴대폰 번호, 이메일 (e-mail) 주소 등의 명함판 정보이다. 그러나 빅 데이터 시대에는 CCTV로부터 전송되는 스트리밍 동영상 (streaming movie), 트위터로부터 확산되는 실시간 트윗 (Tweet) 등 중구난방의 형태와 시시콜콜한 이야기로 가득한 내용들이 중요해졌다.

이처럼 빅 데이터를 데이터의 양과 데이터의 발생 및 갱신 빈도 그리고 다양함 외에 2가지 V를 더 추가하여 설명하는 경우가 있다.

네 번째가 Value이다. 결국 ‘빅 데이터가 왜 각광받느냐’이다. 가치가 있기 때문이다. 과거에 없던 가치를 빅 데이터를 사용하면 발견할 수 있다는 것이다. 예를 들어, 직장인들이 점심 시간에 매일 매일 어떤 음식을 먹는지 또는 최근 핫(hot)한 식당은 어떤 곳이 있는지를 기존의 통계 방법으로는 정확하게 예측할 수 없다. 그러나 트위터 (https://twitter.com/) 또는 마이피플 (https://mypeople.daum.net) 등의 소셜 네트워크 서비스 (SNS)를 이용할 경우, 보다 섬세한 정보를 얻을 수 있다. 트위터나 마이피플에서 점심 식사 시간대에 “한식을 먹자”, “이탈리안 음식점에 가자”, “어디에 있는 어떤 커피집이 맛있더라” 등의 글이 실시간으로 동시다발적으로 올라온다면, 그곳이 현재 가장 인기를 얻고 있는 장소이다. 이처럼, 빅 데이터는 과거에는 잡아낼 수 없었던 가치를 새롭게 제공한다.

다섯 번째가 Variability이다. Variability란 가변성 또는 다양성 또는 변화량을 뜻한다. 오늘날 데이터는 더는 정체되거나 변화 없는 죽은 정보가 아니다. 빅 데이터 시대에 데이터는 크기만 한 것이 아니라, 변화무쌍하게 바뀌는 것이다. 더 나아가 설명하면, 빅 데이터란 거대한 크기의 여러 포맷을 갖는 다양한 데이터가 변화무쌍하고 빠른 속도로 변화하는 정보들을 뜻한다.

이 외에도 5V (Volume, Variety, Velocity, Value, Variability)+1C (Complexty)라는 주장도 빅 데이터의 개념을 잘 설명한다. 매우 복잡한 형태를 구성한다는 점에서 빅데이터가 어떤 데이터 구조체들의 모임인지를 가늠할 수 있다.

이상의 여섯 가지 특징을 갖는 빅 데이터는 단순히 작은 데이터의 반대말이 아니다. 과거에도 수천만 명의 주민등록 13자리 수와 개인의 이름들을 저장할 만큼 커다란 데이터를 다루었다. 다만, 지금의 빅 데이터는 과거처럼 커다란 양이지만, 그 규모가 엄청나고 그 속도가 실로 빠르며 정형화된 포맷뿐만 아니라, 비정형의 포맷까지도 가지고 있는 데이터이다. 그렇다면 과거에는 이런 데이터가 없었는가?

 

빅 데이터를 지탱하는 기술

과거에도 우리는 시장에서 길 거리에서 픽쳐폰 (Picturephone)으로 문자를 주고받으며 충분히 많은 대화를 나누었다. 만약, 1990년대에 삐삐나 문자를 분석하여 실시간으로 어느 장소에서 어떤 대화가 오고가는지를 분석할 수 있었다면, 기업과 정치인에게는 큰 도움이 되었을 것이다. 그러나 과거에는 왜 그런 분석을 할 수 없었을까?

 

<그림 2> 저장 비용의 급락

 

 

첫째, 저장 공간이 너무나 고가였다. 위 (그림 2)을 살펴보면, 1980년에 1기가 바이트(Gbyte=1024Mbyte)를 구매하기 위해서는 100만 달러 (원화로 대략 11억 2천 5백만원 내외)를 지불하여야 했다. 그러나 1980년 이후 저장 장치의 가격은 급격하게 하락하였다. 2010년에는 1기가 바이트를 구매하기 위해서는 0.1달러 (112원)이면 충분할 만큼 가격이 낮아졌다. 1980년과 비교하면 대략 1000만 분의 1 미만으로 저장 공간을 구매하는데 드는 비용이 줄어든 것이다. 앞으로도 계속 저장 공간은 작아질 것이다. 따라서 일개인은 모든 정보를 ㅈ신의 스마트폰 동영상으로 24시간을 저장하는 일을 평생할 수 있는 저장 공간을 갖게 되었다. 클라우드 서비스라는 이름으로 다음 클라우드 (http://self-action.tistory.com/378?top3, 검색일: 2013.06.) 등의 국내 기업들은 50기가를 무료로 제공해주고 있다. 따라서 기업들이 실시간으로 전 세계의 인터넷 자료를 수집하여 저장하거나, 국가 기관이 개인의 모든 활동을 저장하는데 드는 비용이 구축 가능한 만큼으로 줄어들었다.

둘째, 엄청나게 많은 데이터가 쌓여도 이것을 실시간으로 분석해낼 수 있는 기술이 없으면 빅 데이터는 의미가 없어진다. 전통적 시스템 (Legacy system)은 10의 18승에 해당하는 1,000 페타바이트 (Petabyte, 1 PB = 1015 bytes = 1,000,000,000,000,000 bytes) 자료를 합리적인 시간 내에 분석하기에는 기술적으로도 불가능했을 뿐만 아니라, 설사 가능하게 컴퓨팅 성능을 끌어올려도 가격이 천문학적으로 높아지는 문제가 발생하였다. 최근들어, 분산 컴퓨팅 개념이 급속하게 발전하였다. 데이터가 분산 저장되면 그 만큼 저장 장치를 손쉽게 확장 (Scalable)하다는 의미이다. 동시에 데이터 처리를 각 분산된 장치에서 조금씩 나누어서 가상으로 처리할 수 있다는 의미이기도 하다. 즉 여러 개의 컴퓨터 프로세싱 장치가 여러 곳에 분산된 데이터를 동시에 계산하는 기술이 확산되면서 빅 데이터의 개념이 등장하게 된다. 여러 사람이 한 가지 일을 나누어서 처리하는 과정이 복잡하듯이, 분산된 데이터를 여러 대의 컴퓨터가 나누어서 분석하기 위해서는 정교한 처리 절차와 방법들이 제공되어야 한다. 빅 데이터와 함께, 하둡 ( http://hadoop.apache.org/ )이 빅데이터를 지지하는 처리 기술로 떠오르게 된 것이다. 하둡은 안정적이면서 신뢰할 수 있는 분산 컴퓨팅 환경을 지원하는 오픈 소프트웨어를 개발하는 프로젝트이다. 하둡 등을 통해 기업들은 저렴하게 빅 데이터를 처리하고 그 결과를 가지고 효율적인 마케팅 활동을 할 수 있게 된 것이다.

 

로깅된 라이프가 위협받는 세계

빅 데이터 시대는 이제 본격적으로 시작되고 있다. 나의 기본정보 뿐만 아니라, 속성과 행동 기반의 정보를 대량으로 저장, 관리하고 이를 실시간으로 언제 어디서나 분석해 낼 수 있는 빅 데이터 기술은 무궁무진한 활용이 가능하다. 흔히 알고 있듯이 인체의 DNA를 분석하는 것을 넘어, ‘나’ 개인의 DNA와 내가 상호작용하는 주변인의 DNA까지 조합하여 지금 상황을 해석하는 기술이 등장할 수 있다.

그뿐만이 아니다. 현재 RFID, CCTV 등 사물에 부착된 디지털 기기들로부터 다량의 센싱 정보가 수집되고 있다. 이런 정보 역시, ‘나’를 중심으로 다시 재배치되고 해석된다. 즉 불특정 공간에 설치된 CCTV들이 ‘나’의 이동 경로와 걷는 패턴을 녹화하여 하루의 모습으로 재구성할 수 있다. 이런 상상은 비단 공상과학소설이나 영화에 등장하는 이야기가 아니다.

최근에는 생활 밀착형 서비스가 각광받고 있다. 생활 밀착형 서비스가 등장하게 된 데에는 빅 데이터 기술로 집단에 대한 분석에서 ‘나’에 대한 분석으로 마이크로 레벨까지의 분석이 가능해진 탓이다.

실제 SAS (www.sas.com)사는 전 세계적으로 매초당 10,000건 이상의 신용카드 트랜젝션이 발생한다고 발표하였다. (http://www.sas.com/big-data, 검색일:2013.06.) 현재 SAS는 빅 데이터 분석을 통해 도난 카드의 오남용을 막는 서비스를 제공하고 있다. 그러나 그 이면에는 나의 일거수일투족 카드생활이 고스란히 기업에게 제공되어야 한다.

기업은 편리한 서비스를 제공한다. 그러나 기업은 이윤창출을 위한 고객 서비스이지, 고객 서비스를 위한 부가적 이윤창출이 아니다. 철저하게 관리될지 안 될지는 늘 미지수인 것이다. 최근 프리즘 사태 (미국 정보기관의 개인정보 수집 프로그램)로 구글, MS사 등 대기업들도 자사의 정보를 미국 정보기관에 협조할 수 밖에 없었다는 사실을 발견하게 된다. 이제 프라이버시는 누가 지켜주겠지라는 소극적 개념이 아니다. 어쩌면, 스스로 보호하고 빼앗긴 권리를 되찾는 적극적인 자기통제권이 된지 오래다. 다음 편에서 프라이버시의 사례를 통해 보다 면밀하게 검토해보겠다.

 

 

강장묵 교수(고려대), 공학박사

                                                                           (이메일 : kangjm@korea.ac.kr    mooknc@gmail.com)

 

저자는 차이가 차별로 구조화되는 사회를 반대한다. 질투는 나의 힘이다. 염장질은 나의 버릇이다.

날마다, 창조적 조응을 통한 매혹을 그린다.

지루한 사람 곁에는 하품을, 어딘가 꼬여 부정적인 이에게는 안쓰러움을, 직급만 믿는 이에게는 거품 물방울을 뿌리며 산다.

하고 싶은 일만 골라서 하고, 물질이 아닌 열정을 쫓는다. 여백이 그리울 땐 여행을 간다. 아이디어를 스케치하고 차를 우리고 글을 쓴다. 돌아와서는 특강, 논문 심사, 프로젝트 평가, 포럼을 하며 비수를 꽂는다.

 

 

첨부파일  
이전글 탐욕이 키운 괴물, 일베
다음글 소프트웨어에 대한 스마트 철학
목록