빅데이터가 만드는 세상 – 빅토르 마이어 쇤버거, 케네스 쿠키어

빅토르 마이어 쇤버거,케네스 쿠키어 공저/이지연 역 | 21세기북스 | 원서 : Big Data

오랜만에 업계 서적 한 권.

이 책에서 제시하고 있는 빅데이터와 관련한 사례들과 미래의 모습 예측을 통해 그간 피상적으로 인지하고 있던 빅데이터에 대해 조금은 이해되기 시작했다는 느낌.

전반적으로 풍부한 사례들과 그로부터 도출한 적절한 통찰을 담고 있으며 또한 빅데이터 세상에서 앞으로 예상되는 문제와 이에 대한 대안을 풀어가는 방식이 논리 정연하여 쉽게 읽히는 잘 쓰여지고 잘 번역된 책인 듯 하다.

무엇보다 빅데이타를 기술적 관점의 틀을 벗어나 패러다임의 변화로 인식하고 보다 큰 틀에서 생각해볼 수 있는 관점을 제공하고 있다는 점은 이 책이 갖는 장점일 것이다.

Chapter 1 현재

데이터로 하여금 말하게 하라|들쭉날쭉하지만 더 많아서 괜찮은 데이터

  • 구글의 바이러스 확산 예측 시스템, 에치오니의 Farecast
  • 빅데이터란 큰 규모를 활용해 더 작은 규모에서는 불가능했던 새로운 통찰이나 새로운 형태의 가치를 추출해내는 일이다. 그리고 이 과정에서 시장, 기업 및 시민과 정부의 관계 등 많은 분야에 변화를 가져오는 일

Chapter 2 많아진 데이터
일부에서 전체로

  • 샘플링은 정보처리에 제약이 있던 시대의 산물
  • 라이트로(Lytro) 카메라 – 전체 라이트 필드에서 나온 광선을 포함. 모든 정보를 수집했다가 나중에 초점을 맞추면 되기 때문에 처음부터 사진의 초점을 맞출 필요가 없다.

Chapter 3 들쭉날쭉한 데이터
질보다 양|들쭉날쭉한 데이터의 실제 모습

  • 알고리즘이 좋은 것보다 데이타가 많은 편이 훨씬 더 효과적이라는 사실이 여실히 증면된 사례는 자연어 처리 부문. 실제로 50만 단어를 가지고 사용했을 때는 성능이 가장 형편없었던 단순한 알고리즘도 10억 개의 단어를 처리하자 다른 세 개의 알고리즘보다 더 나은 성능을 보였다. 정확도가 75%에서 95% 이상으로 상승
  • IBM의 캉디드 프로젝트는 주의 깊게 번역된 300만 개의 문장을 사용했지만 구글의 시스템은 번역의 질이 다양한 수십억 페이지의 번역문을 사용
  • 구글이 IBM의 캉디드보다 수만 배나 더 큰 데이터 집합을 사용할 수 있었던 것은 데이터의 들쭉날쭉함을 받아들였기 때문
  • ‘많은 데이터를 가진 간단한 모델이 적은 데이터를 가진 정교한 모델보다 뛰어나다.’
  • 데이터를 불완전하고 부정확한 것으로 취급하면 더 나은 예측을 할 수 있고 세상을 더 잘 이해할 수 있다.
  • 정확도를 올리려고 힘들게 노력하는 것이 경제적으로 비합리적인 경우도 많을 것
  • 물가상승률을 계산하는데 쓰이는 10억 개 상품 가격 프로젝트에 빅데이터를 활용한 MIT 연구진의 사례를 활용하여 설립한 PriceStats.
  • RDB는 데이터를 이용해 답을 구하고 싶은 질문을 처음부터 분명히 알고 있다는 것 전제로 함.
  • noSQL은 미리 정해진 레코드 구조가 필요하지 않다. noSQL은 다양한 종류와 크기의 데이터를 수용하면서도 검색이 성공적으로 수행되게 해준다. 이런 데이터베이스 설계는 들쭉날쭉한 구조를 허용하는 대신 데이터 처리와 스토리지용 자원을 더 많이 필요로 하지만 데이터 저장 및 처리 비용이 급락하는 현실을 감안하면 충분히 받아들일 수 있다.

Chapter 4 인과성과 상관성
예측과 선호|환영과 깨달음|폭발하는 맨홀|이론의 종말?

  • 아마존의 추천 상품 목록 – 추천 시스템이 한 사람 한 사람을 굳이 비교할 필요 없이 상품들 사이에 존재하는 연관성만 찾도록 접근 방법을 바꿈. 이를통해 아이템간 협업 필터링이라는 기술 개발
  • 현재 아마존 매출의 1/3은 추천 목록과 개인 맞춤 시스템에서 나옴. 넷플릭스는 신규 주문의 3/4가 추천 목록으로 부터 만들어짐.
  • 이유를 아는 것은 유쾌한 일이다. 하지만 매출을 시뮬레이션해 볼 때 이유는 중요치 않다. 반면에 결론을 알면 클릭수가 쏟아진다.
  • 상관성은 두 데이터 값 사이의 통계적 관련성을 수량화
  • 데이터의 수가 급격히 증가하면 실제로는 관련이 없는데도 관련이 있는 것처럼 보이는 허위 상관성도 더 많이 보게 되는데 이 점을 주의해야 함.
  • 원인에 대한 이해 혹은 가설의 필요없이 빅데이터를 가지고 상관분석을 해서 어떤 검색어가 독감에 관한 최선의 대용물인지, 항공권 가격이 치솟을 것 같은지, 폭풍이 몰려오면 불안한 가족들은 뭘 먹고 싶어 하는지 데이터가 말하도록 하면 됨. 가설에 의한 접근법을 데이터에 의한 접근법으로 대체. 이렇게 할 경우 편향은 덜하고 정확성은 더 높은 결과를 훨씬 더 빠르게 얻게 될 것.
  • 상관성에 기초한 예측은 빅데이터의 핵심
  • 히트곡을 찾아내는 알고리즘도 일종의 예측분석. 음반 회사들이 어디에 투자를 해야 할지 알려주는 역할을 함.
  • 우리가 전체 데이터를 처리할 수 없어서 택했던 지름길이 샘플링이었던 것처럼, 인과성을 자각하는 것도 두뇌가 천천히 힘들여 사고하지 않으려고 택하는 지름길일 뿐
  • 미래에는 빅데이터와 상관성을 이용해 우리의 인과적 직관이 틀렸음을 증명하는 일이 일상화될 것

Chapter 5 데이터화
세상의 수량화|단어들이 데이터가 될 때|위치가 데이터가 될 때|소통이 데이터가 될 때|모든 것의 데이터화

  • 구글 북스에 있는 전체 인덱스를 데이터 소스로 사용해서 시기에 따른 단어나 문구의 이용 현황을 그래프로 만들어 주는 구글 엔그램 뷰어 http://books.google.com/mgrams
  • 영리하게도 구글은 북스캐닝 프로젝트에서 데이터화된 텍스트를 자신들의 기계 번역 서비스를 개선하는 데 이용했다.
  • 최소한 현재까지 아마존은 콘텐츠를 디지털화하는 것의 가치를 이해하는 반면, 구글은 콘텐츠를 데이터화하는 것의 가치를 이해한다고 표현해도 부당하지는 않을 것
  • AirSage,는 휴대전화 가입자 수백만 명의 이동 경로를 통해 매일 150억 개의 지리 위치 기록을 분석한 후 미국 전역 100여 개 도시에 실시간 교통정보를 전달
  • 휴대전화에서 얻은 엄창난 양의 정보를 처리해 인간 행동을 추론하고 예측하는 현실 마이닝 reality mining
  • 2012년 IBM ‘표면 기반 컴퓨팅 기술을 이용한 구내 보안’ 특허
  • 2009년 Apple 이어폰을 통해 혈중 산소치, 심장박동수, 체온 등의 데이터를 수집하는 것에 관한 특허

Chapter 6 가치
데이터의 ‘옵션 가치’|데이터의 재사용|재조합형 데이터|확장 가능한 데이터|가치가 하락하는 데이터|데이터 잔해의 가치|오픈 데이터의 가치|값을 매길 수 없는 가치

  • Captcha(Completely Automated Public Turing Test to Tell Computers and Humans Apart)
  • ReCaptcha – 무작위로 글자를 타이핑하는 대신 컴퓨터의 광학 문자인식 프로그램으로는 인식할 수 없는 텍스트를 스캐닝하는 프로젝트에서 두 단어를 골라 타이핑하도록 하는 방법. 이 데이터는 이용자가 인간임을 증명한다는 주된 목적 이외에 불문명한 단어를 디지털화된 텍스트로 해독하는 2차 목적도 있었음.
  • 음성 인식 기술에 대한 뉘앙스(Nuance)와 구글의 이야기 – 당시 뉘앙스는 자신들이 소프트웨어 라이선싱 업계에 종사한다고 생각했을 뿐, 데이터 분석 분야에서 일한다고는 생각지 못하고 음성 인식 기록을 구글이 소유하도록 함.
  • 처음부터 잠재적인 2차 용도를 염두에 두고 확장 가능한 데이터, 그리고 최대한 많은 데이터를 수집하는 편이 합리적. 이는 데이터의 옵션 가치를 높이는 것.
  • 구글과 마이크로소프트의 맞춤법 검사기 – 구글의 맞춤법 검사기는 사람들이 매일 검색엔진을 이용하는 데 따른 부수적 결과
  • 마이크로소프트는 맞춤법 검사의 가치를 한 가지 목적으로만 생각한 반면, 구글은 그 효용성을 더 깊이 이해. 구글은 오자를 이용한 세계 최고, 최신의 맞춤법 검사기를 만들어서 검색 성능만 향상시킨 것이 아니라 다른 여러 서비스에도 활용 (검색, G메일, 구글 문서 도구의 자동 완성 기능, 구글 번역 등)
  • 구글은 ‘데이터에서 배운다’는 원칙을 자신들이 제공하는 많은 서비스에 적용하고 있다.
  • 빅데이터 시대에는 데이터를 보유한 많은 회사들이 고정된 가격으로 계약을 맺기보다는 그 데이터에서 추출된 가치의 일정 퍼센트를 지급받는 방식을 택하려고 할 것
  • ‘데이터는 플랫폼이다’ 새로운 재화와 비즈니스 모델을 만들어내기 위한 벽돌이기 때문 (팀 오라일리)

Chapter 7 영향
빅 데이터의 가치 사슬|새로운 데이터 중개인|전문가의 종말|효용의 문제

  • 데이터 과학자는 통계 전문가, 소프트웨어 프로그래머, 인포그래픽 디자이너, 스토리텔러를 합쳐놓은 직업
  • 빅데이터 초기 단계에 불과한 현재로서는 아이디어와 기술이 가장 큰 가치를 지닌 것 같다. 하지만 결국에 가면 대부분의 가치는 데이터 자체에 있을 것. 결과적으로 데이터 보유자들은 그 어느 때보다도 더 데이터를 꽉 움켜쥐려고 할 것이고, 이에 접근하려는 외부인들에게는 높은 가격을 책정할 것.
  • 독립 데이터 중개인의 전형, 인릭스(Inrix) – 북아메리카와 유럽의 차량 1억 대로부터 지리 위치 데이터를 실시간으로 전송받아 교통 패턴 이력이나 날씨, 지역 이벤트 등의 데이터와 결합하여 교통 흐름을 예측. 수많은 라이벌 자동차 회사들로부터 정보를 수집하기 때문에 그 어느 회사가 단독으로 할 수 있는 것보다 더 가치 있는 결과를 만들어 냄.
  • 오늘날 달라진 것은 이제 데이터가 시장에 투입되는 원자재라는 점. 이전에 무엇을 측정하려고 수집되어진 것과는 달리 이제는 데이터 자체가 독립적인 하나의 자산
  • 데이터 중개인들은 자신들이 데이터를 얻어야 하는 데이터 보유자들의 비즈니스 모델을 위협하지 않으면서도 돈이 되는 틈새 시장을 찾아야
  • 2006년 마이크로소프트는 페어캐스트를 약 1억1,100만 달러에 사가면서 에치오니의 빅데이터 사고방식을 보상했다. 그러나 2년 후 구글은 페어캐스트에 데이터를 공급했던 ITA 소프트웨어를 7억 달러에 인수
  • 빅데이터가 몰고 올 가장 큰 충격은 데이터에 기초한 의사 결정이 인간의 판단을 강화하거나 기각하게 만들 수 있다는 점. 많은 영역에서 전공별 전문가들의 영향력이 줄어즐 것. 아마존의 추천 목록 시스템이 도서 리뷰 담당자들을 없앤 것 처럼.
  • 데이터 중심의 의사 결정이라는 추세는 매우 근본적인 변화
  • 더넘버스닷컴 – 방대한 데이터를 활용 복잡한 상관관계를 찾아내 영화 프로젝트의 수익율 예측
  • 롤스로이스의 엔진 모니터링 서비스 – 전 세계 3,700여 개의 제트 엔진의 성능을 지속 모니터링, 고장이 일어나기 전에 문제 감지
  • 많은 소비자들로부터 데이터를 받아 그것을 쉽게 사용 허가하고 거래를 자동화하는 방법을 제공할 새로운 형태의 회사 출현 가능성

Chapter 8 리스크
사생활 마비|확률과 처벌|데이터의 독재|빅 데이터의 어두운 면

  • 성향에 기초한 불이익의 가능성
  • 빅데이터 시대에는 사생활을 보호하기 위해 오랫동안 사용되어 온 세 가지 핵심 전략들(개별적 고지와 동의, 탈퇴, 익명화)이 모두 효력을 많이 상실
  • 완벽한 예측이란 두말할 나위 없이 불가능. 오히려 빅데이터 분석은 어느 개인이 미래에 특정 행동을 할 가능성이 몇 퍼센트라는 식으로 예측할 것. 핵심은 예측된 생동을 저지르기도 전에 그 행동에 대한 책임을 묻는 것은 상관성을 가지고 인과관계를 결정하는 오류라는 점. 그러므로 상관성에 기초하고 있는 빅데이터는 우리가 인과성을 판단하고 개인의 책임을 묻는 과정을 돕기에는 적적으로 부적합한 툴
  • 맥나라마의 오류 – 베트남 전쟁 기간 미군의 데이터 이용과 남용, 오용 사례

Chapter 9 통제
동의에서 책임으로|사람 vs 예측|블랙박스 깨기|알고리즈미스트의 부상|외부 알고리즈미스트|내부 알고리즈미스트|데이터 왕에 대한 규제

  • 정보 수집 시점의 개인 동의에 초점을 맞추기보다는 데이터 이용자들이 자신이 하는 일과 관련해서 져야 할 책임에 좀 더 초점을 맞추는 것
  • 빅데이터 예측과 그 배후에 있는 알고리즘 및 데이터 집합이 블랙박스가 되어버릴 위험 – 알고리즈미스트(algorithmist)의 부상
  • 빅데이터 시대에 효과적이고 공정한 정보 규제 – 사생활 보호를 개인 동의에서 데이터 이용자 책임 위주로 바꾸는 것, 예측이 난무하더라도 인간 행위 원칙을 지켜나가는 것, 새로운 부류의 빅데이터 감사자인 알고리즈미스트를 도입하는 것

Chapter 10 다음
데이터가 말을 할 때|빅 데이터보다 더 큰 데이터

  • 궁극적인 답을 제시하지 않는 도구, 더 나은 방법과 더 나은 답이 나올 때까지 우리를 도와주는 그냥 충분히 괜찮은 도구로서의 빅데이터

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다