데이터마이닝 – Book of Ryu's past and future in another universe, Chapter 4.

[Economist] 블로그 마이닝(Blog mining)

블로그 마이닝

Mar 11th 2010 |
From The Economist print edition

유용한 정보를 찾기 위해 블로그들을 샅샅이 뒤지다

“도어매트가 살짝 구부러진 각도로 놓여있는 것을 깨달았습니다. 나는 몸을 구부려 그 매트를 원래 자리로 옮겨놨지요.” 세계에서 가장 재미없는 블로그의 최근 글은 이렇게 시작한다. 비록 이런 문구가 인터넷의 알맹이 없는 블로그들에 대한 일종의 풍자이지만, 과학자들은 – 놀랍게도 – 지루한 블로고스피어에서 유용한 정보가 나올 것이라 믿고 이를 찾고 있다.

로스엔젤레스에 위치한 USC의 창의적 기술 연구소의 Andrew Gordon과 그의 동료들은 컴퓨터에게 원인과 그 결과를 가르치기 위해 노력하고 있다. 컴퓨터들은 인과 관계를 다루는 데는 적합하지 않다. 컴퓨터가 특정 이벤트를 인식할 수는 있지만 관계까지 밝혀내는 것은 너무 어렵다. 이는 컴퓨터를 사용하여 인간의 경험을 분석하고자 할 때 특히 그렇다.

하지만 컴퓨터가 개인적인 블로그를 읽음으로써 많은 인과 관계를 학습할 수 있다는 것이 밝혀졌다. 매일 영어로 작성되는 백만 개쯤 되는 블로그 글들은 대부분 뉴스에 대한 커맨트, 활동 계획, 아니면 일상에 대한 개인적 생각들이다. 약 5% 정도는 최근 작성자에게 일어난 사건에 대한 이야기를 들려주고 있다.

그들의 컴퓨터 시스템이 블로그들을 학습하게 하기 위해서, 연구진들은 2단계의 과정을 진행했다. 첫 번째 단계는 사람들에게 수천 개의 블로그 글들을 “스토리” (역:시간의 흐름에 따른 순차적인 서술)와 “스토리가 아닌 것”으로 분류하게 했다. 사람들은 스토리를 이야기 할 때 다른 형태의 담화들에 비해서 다른 단어들을 다른 빈도로 사용한다. 선택된 블로그 글에서 나타나는 대명사와 과거 동사들의 빈도를 계산하여 그 내용이 무엇이든 상관없이 이 두 가지 종류를 구분하는 것이 가능하다고 Gordon 박사는 말한다. 그의 컴퓨터 시스템은 다른 블로그 글들을 보고 그것이 서술인지 아닌지를 밝혀냈다.

두 번째 단계는 시스템이 인과 관계를 구분할 수 있도록 가르치는 것이다. 여기서도 연구팀은 거의 비슷한 기술을 사용한다. 고든 박사와 그의 학생들은 수천 개의 임의의 블로그 글들을 읽고 인과관계로 연관된 구들을 특별히 표시하여 컴퓨터가 알아볼 수 있게 했다. (“나는 X를 했기 때문에 Y가 일어났다” 같은) 이러한 구들을 블로그 글에서 구분해 놓으면 컴퓨터는 “나는 브레이크를 세게 밟았지만 결국 내 앞의 차와 부딪히고 말았다.” 혹은 “그 의사는 내가 너무 기름지게 먹어서 심장 상태가 위험한 지경이라고 나를 꾸짖었다.” 같은 원인과 결과가 포함된 문장을 골라내고 분류하는 것이 가능해진다.

이것이 결국에는 시스템으로 하여금 다수 대중의 개인적 삶에 대한 취합된 통계정보를 매일매일 모으는 것이 가능하게 할 것이라는 것이 핵심이며 이는 다른 방법을 통해서는 얻어내기 불가능한 정보가 될 것이라는 것이다. 궁극적으로, Gordon 박사는 웹 로그의 개인적 이야기들에 대한 분석이 훨씬 더 확장된 구글의 Flu 추적과 같은 형태로 사용 될 것이라고 예상한다. 구글의 Flu 추적은 특정 지역에서 flu와 관련된 검색어가 집중적으로 나타나는 현상에 대한 검색 데이터 마이닝으로 인플루엔자 발병의 초기 징조를 찾아냄으로써 가능하다.

약물 복용이나 영화에 흥미를 가지게 만드는 인종 갈등, 신 제품 등등의 모든 것들을 포함하는 새로운 유행이나 행동에 관한 정보를 추적하기 위해 웹이 이용된다. 블로그는 본질적으로 사람들이 그들의 일상에 대한 커멘트를 재빠르게 올리는 것을 의미한다. 따라서 이러한 종류의 정보를 캐내어 어떻게 아이디어가 퍼져나가고 유행이 생겨나는지에 대한 정확한 내용을 밝혀낼 것이다.

웹 이전의 세상에서는 일상의 자질구레한 일에 대해 떠드는 것은 주위 사람들에게만 알려졌고, 글로 쓰여지지 않았다. 따라서 이러한 분석의 대상이 되지도 못했다. 나중에 사람들이 읽어줄 것을 위해 일상을 적고 강박적으로 누가 글을 읽었는지 알아보기 위해 방문자수를 확인하고 있는 오늘날의 블로그 운영자들은 최소한 컴퓨터는 그들의 글이 흥미진진하다는 사실을 알아준다는 생각에 위로 받을 수 있다.

영어 원문

[#M_ more.. | less.. |

Analysing the web

Blog mining Scouring blogs for useful information

Mar 11th 2010 |
From The Economist print edition

“I NOTICED that the doormat was at a slightly crooked angle. I reached down and moved the mat back into its correct place.” Thus began a recent entry on The dullest blog in the world. Although this publication is something of a satire on the internet’s inane blogs, scientists are finding—to their surprise—that useful information can actually be mined from the tedium of the blogosphere.

Andrew Gordon and his colleagues at the University of Southern California’s Institute for Creative Technologies in Los Angeles have been trying to teach computers about cause and effect. Computers are not good at dealing with causality. They can identify particular events but working out relationships is more difficult. This is particularly true when it comes to using computers to analyse the human experience.

But it turns out that computers can learn a lot about causality by reading personal blogs. Of the million or so blog entries that are written in English every day, most are comments on news, plans for activities, or personal thoughts about life. Roughly 5% are narratives telling stories about events that have recently happened to the author.

To enable their computer system to learn from blogs, the team followed a two-step process. The first step was for humans to flag thousands of blog entries as either “story” or “not story”. People use different words with different frequencies when they are telling stories, as compared with other forms of discourse. By tallying up the frequencies of parts of speech such as pronouns (I, she, we) and past-tense verbs (went, said, thought) in these flagged blogs, it is possible to distinguish between the two types—regardless of what the story is actually about, says Dr Gordon. His computer system could then look at other blog entries and work out whether they were narrative or not.

The second step was to teach the system to identify causal connections. Here the team used much the same technique. Dr Gordon and his students read thousands of random blog entries and specifically pointed out phrasing associated with causal relationships (such as “I did X so then Y happened”) for the computer to pick up on. Identifying such phrases in blog entries then enables the computer to pick out and categorise those sentences that contain a cause and an effect, such as “I slammed on the brakes but ended up smashing into the car in front of me” or “The doctor scolded me for eating too much fat and risking a heart condition.”

The idea is that this will eventually lead to a system that can gather aggregated statistics on a day-by-day basis about the personal lives of large populations—information that would be impossible to garner from any other source. Ultimately, Dr Gordon expects the analysis of personal stories in weblogs to be used much like Google’s flu tracker, but on a much grander scale. Google’s flu-tracking scheme can detect early signs of influenza outbreaks by mining search data for flurries of flu-related search terms in a particular region.

The web could be mined to track information about emerging trends and behaviours, covering everything from drug use or racial tension to interest in films or new products. The nature of blogging means that people are quick to comment on events in their daily lives. Mining this sort of information might therefore also reveal information about exactly how ideas are spread and trends are set.

In the world before the web, chatter about the trivialities of everyday life was shared in person, and not written down, so it could not be subjected to such analysis. While recording their words for posterity and obsessively checking their hit counters to see if anyone is reading them, today’s blog authors can console themselves with the thought that computers, at least, find their work fascinating.

_M#]

[Economist] 금을 위한 클릭 (Clicking for gold)

금을 위한 클릭

Feb 25th 2010 |
From The Economist print edition

인터넷 기업들은 웹의 데이터를 통해 어떻게 돈을 버는가?

잠깐! Amazon.com은 그들이 당신에 대해서 무엇을 알고 있는지 들키지 않기를 바란다. 그들은 당신이 구입한 책의 목록 뿐 아니라, 뒤적거렸으나 구입하지 않은 책을 기록하고 있으며 이를 이용해 다른 책을 추천하기도 한다. 그들의 e-book인 킨들로부터 수집한 정보는 한층 다양하다. 사용자가 각 페이지를 읽는데 얼마나 걸리는지, 별도의 노트를 하는지 등등. 하지만 아마존은 어떤 데이터들을 수집하고 그들을 어떻게 이용하는지 밝히기를 거부한다.

이뿐 아니다. 인터넷 산업 전체에 걸쳐 기업들은 사람들의 활동, 선호, 혐오, 다른 사람과의 관계, 어느 순간에 어느 위치에 있었는지 등에 대한 대량의 정보를 수집하면서도 침묵을 지키고 있다. 예를 들어 소셜 네트워킹 사이트 페이스북은 그들의 4억 이용자들의 활동을 기록하고, 이 중 절반은 매일 이 사이트에서 한 시간 가량을 보내지만 그들이 무엇을 수집하는지에 대해서는 침묵을 지키고 있다. 구글은 약간의 내용을 공개했지만, 나머지 대부분은 숨기고 있다. 온라인 경매 사이트 eBay 조차 침묵을 지킨다.

“그들은 이것이 이슈화 되는 것이 편치 않습니다. 왜냐하면 이것이 그들이 가지고 있는 경쟁력의 핵심이기 때문입니다.” 기술 전문가이자 발행인인 Tim O’Reilly는 말했다. “데이터는 법정 화폐와 같습니다. 이를 가지지 못한 다른 기업과 큰 격차를 벌릴 수 있게 해줍니다.” 웹에서 가장 큰 사이트 중 하나의 홍보 책임자는 “우리는 이 문제에 대해 심도 있게 논의할 위치에 있지 않습니다. 그것은 사생활 같은 민감한 고려 사항과는 별로 관계가 없습니다. 대신, 우리는 단지 우리의 전략을 드러내 놓을 준비가 되어 있지 않은 것입니다.” 라고 인정했다. 다시 말해, 기업은 소중한 업계의 비밀에 대해서 밝히고 싶지 않은 것이다.

이러한 침묵은 부분적으로 고객의 우려할 경우, 혹은 정부가 반갑지 않은 관심을 가질 경우에 대한 기업들의 염려를 반영한다. 하지만 이는 두 가지 이유에서 너무 근시안적이다. 첫째로, 정치가들과 대중은 이미 불안해하고 있다. 미 연방 무역 위원회의 회장 Jon Leibowitz는 산업 전체가 적극적으로 해결에 나서고 있지 않다고 공개적으로 비판했다. 둘째로, 만약 이용자가 어떻게 데이터가 이용되는지 안다면, 아마도 염려하기 보다는 인상 깊어 할 것이다.

전통적인 산업에서는 고객에 대한 정보를 그들의 구매나 설문조사에 의해 얻는 것이 일반적이었지만, 인터넷 기업들은 그들의 웹 사이트에서 일어나고 있는 모든 일로부터 데이터를 수집할 수 있는 풍요로움을 누리고 있다. 거대한 웹 사이트들은 정보 그 자체가 그들의 가장 큰 보물이라는 것을 오래 전부터 인식하고 있었다. 그리고 이러한 정보는 전통적인 기업들이 도저히 대적할 수 없는 방식으로 바로 사용될 수 있다.

이러한 기술 중 몇몇은 널리 이용되고 있다. 새로운 기능을 실제 구현하기 전에, 거대 사이트들은 어떤 것이 가장 잘 동작하는 지에 대한 통제된 실험을 진행한다. 영화를 대여해 볼 수 있게 제공하는 Amazon과 Netflix은 다른 사용자들이 무엇을 좋아하는 지에 기반하여 사용자들에게 영화를 추천하는 협업적 필터링이라 불리는 통계적 기법을 사용한다. 그들이 사용하는 기술로 인해 수백만 달러의 추가 매출이 일어났다. 거의 3분의 2에 해당하는 소비자의 선택이 컴퓨터에 의한 소개를 통해 이루어졌다.

첫 눈에 보기에는 중립적인 상업 거래를 위한 플랫폼 이상이 아닐 것 같은 eBay도 물건을 내놓는 행동, 입찰, 가격 동향, 검색어, 사용자가 한 페이지를 보는 시간 등 수집한 정보들을 통해 수없이 많은 조정을 한다. 모든 제품 분류는 능동적으로 관리되는 하나의 미시 경제처럼 다루어진다. 많이 검색되지만 잘 팔리지는 않는 고가의 상품은 충족되지 않은 요구를 나타내고, 따라서 eBay는 상품 게시를 늘리기 위해 판매자 보험을 제공할 파트너를 찾는다.

가지고 있는 데이터로부터 가장 많은 것을 얻어내는 기업은 구글이다. 상상할 수 없을 만큼 많은 양의 정보로부터 새로운 경제적 가치를 만들어 내는 것은 그들의 생명선이다. 이는 설립 11년이 지난 기업의 시가 총액이 조사 결과 1700억불에 달하는 것이 이상하게 느껴지지 않는 이유를 말해준다. 구글은 사용자와의 인터렉션이나, 자동적으로 서비스를 향상 시키거나 완전히 새로운 제품을 만들기 위해 재활용되는 data exhaust의 부산물인 정보를 활용하고 있다.

마우스를 통한 투표

구글의 창업자 중 한명인 Larry Page가 검색을 위한 페이지 랭크 알고리즘을 고안한 1998년까지 검색 엔진들은 구현 자체가 널리 공개된 시스템인 한 웹 페이지 상에서 한 단어가 몇 번이나 나타나는 지를 계산하는 방법으로 단어와 웹 페이지의 관계성을 결정했다. 구글의 혁신은 다른 페이지로부터 현재 페이지로 향하는 링크의 개수를 세는 것이다. 이러한 링크는 인터넷 사용자가 대체적으로 중요한 자료라고 믿는 것에 대한 투표 역할을 했다. 많은 인용이 책의 우수성을 말해주는 것처럼, 많은 링크는 그 웹 페이지가 더 유용하다는 것을 뜻한다.

구글의 시스템은 하나의 발전이었지만, 이를 속이기 위해 만들어진 “링크 스팸”의 남용에 취약했다. 구글의 기술자들은 실제 사용자가 클릭하거나 머물게 될 검색 결과로 노출 되었을 때 별점을 매기는 것이 해결책이라는 것을 깨달았다. 구글 검색은 1/4초 만에 2백만 개의 결과 페이지를 내놓지만, 사용자들은 오직 하나의 페이지만을 원하고 이를 선택함으로써 구글에게 그들이 무엇을 찾고 있었는지를 말해준다. 따라서 이 알고리즘은 서비스에 피드백된 정보를 통해 자동으로 재조정된다.

이를 통해 구글은 이것이 데이터 마이닝에 관련된 것이라는 사실을 깨달았다. 이 모델은 간단한 경제 용어로 바꾸어보면, 검색 결과를 통해 $1의 가치를 제공한다 하면, (이용자의 클릭 덕택에) 다시 1센트를 되돌려 받는 것이다. 다음 이용자가 방문했을 때, 그는 $1.01의 가치를 얻게 되고 이것이 반복된다. 한 직원은 이를 “우리는 거대하고 ‘산만한’ 데이터들을 통해 배우는 것을 좋아합니다.”라고 말했다.

커다란 데이터의 뒤에서 발전을 이루어내고 있는 것은 구글 만이 아니고, 또 새로운 기술도 아니다. 가장 눈에 띄는 예는 미 해군의 Matthew Fontaine Maury가 태평양을 건너는 선박들로부터 항해 일지를 수합하여 바람과 해류가 가장 적합한 경로를 찾을 수 있을 것이라고 생각했던 19세기 중반으로 거슬러 올라간다. 그는 그의 지도 사본을 항해 일지를 제공한 선장에게 제공해서 “전염적인” 소셜 네트워크의 색다른 초기 형태를 만들었다. 하지만 이 과정은 느렸고, 수고스러운 일이었다.

마법 스펠링

구글은 이러한 데이터들로부터 재귀적으로 학습하는 방법을 그들의 많은 서비스에도 적용하고 있고, 거의 모든 언어에서 아마 세계 최고의 맞춤법 검사기를 만들어낸 선구적인 방법에도 이것이 사용되고 있다. 마이크로소프트는 그들이 지난 20년 동안 그들의 워드프로세서를 위한 강력한 맞춤법 검사기능을 만드는데 수백만 달러를 썼다고 말한다. 하지만 구글은 이 기능을 위한 원료를 공짜로 얻었다. 그들의 프로그램은 사용자들이 검색 창에 타이핑한 잘못된 단어들과 올바른 결과를 클릭한 “교정”에 기초한다. 하루에 거의 30억에 달하는 검색 건으로 이러한 결과는 곧 산더미처럼 쌓인다. 1990년대의 다른 검색 엔진들도 같은 것을 할 수 있는 기회가 있었지만 실제 실행에 옮기지는 않았다. 2000년 경에 야후가 이의 잠재력을 보았지만, 실천에 옮기지는 않았다. 사용자와 상호작용의 쓰레기 더미에서 금가루를 발견하고 이 모두를 수집하는 수고를 떠맡은 것은 구글이었다.

최근 구글의 2가지 서비스인 번역과 음성인식도 같은 방식이다. 양쪽 모두 인공 지능 분야의 컴퓨터 과학자들에게는 커다란 장애물이었다. 40년이 넘는 기간 동안 과학자들은 언어의 음성과 구조를 이해하는 컴퓨터를 만들기 위해 노력해왔다. 이는 올바른 시제 등을 가지는 한 문장에서 어디에 명사와 동사가 위치하는지 등의 규칙을 정의하는 것을 의미한다. 규칙에 어긋나는 모든 예외들 역시 입력되어야 했다. 이와는 반대로 구글은, 이를 많은 데이터와 연산 능력만 있으면 풀 수 있는 커다란 수학 문제로 보았고, 실제 유용한 해결책을 찾아내었다.

번역을 위해서 구글은 그들의 다른 서비스들을 이용 할 수 있었다. 그들의 검색 시스템은 20여 개 국의 언어로 번역된 유럽 연합 집행 기관의 문서들을 찾아 낼 수 있다. 그들의 책을 스캐닝 하는 프로젝트는 다른 여러가지 언어로 번역된 수천개의 책 제목들을 가지고 있다. 이러한 모든 번역의 질은 표준을 준수하기 위해 전문가들에 의해 이루어져서 아주 좋은 상태이다. 따라서 컴퓨터에게 언어의 규칙을 가르치려 노력하는 대신에, 구글은 통계적 추론을 만들기 위해 텍스트 그 자체에 집중했다. 구글의 엔지니어인 Frans Och에 따르면 구글 번역기는 현재 50개 이상의 언어를 처리할 수 있다. 이 시스템은 한 언어의 단어나 구를 가지고 다른 언어에서의 가장 비슷한 동등어를 찾아낼 수 있다. 만약 직접 번역이 힘든 경우 (예를 들어, 힌두어와 카탈로니아어), 영어가 중간 다리 역할을 한다.

구글이 이러한 방법을 처음 사용한 것은 아니다. 1990년대 초반 IBM은 캐나다의 국회에서의 번역을 이용하여 프랑스어-영어 번역프로그램을 만드려 시도한 적이 있다. 하지만 제대로 동작하지 않았고, 이 프로젝트는 폐기 되었다. IBM은 오직 폐기 처분된 수백 만개의 문서를 가지고 있었다고 Och는 무시하듯이 말했다. 구글은 수십 억개를 가지고 있다. 구글의 시스템은 초기에 약 2조개의 단어를 처리하여 개발되었다. 엄청난 양의 데이터로 학습되었지만, 이는 맞춤법 검사와 검색의 재귀적인 특성이 부족했다.

이러한 피드백 루프의 디자인은 중요하다. 구글은 사용자들에게 그들의 의견을 묻지만 그 이상은 없다. 독일에서 개발된 Linguee라는 번역기는 조금 다른 방법을 시도한다. 사용자에게 가능한 번역의 샘플들을 제시하고 가장 적당한 것을 클릭하도록 한다. 이는 어떤 것이 가장 정확했는지에 대한 피드백이 될 수 있다.

음성 인식은 Data exhaust 이용의 중요성을 강조한다. 구글의 전화번호부나, 음성 자동차 내비게이션 서비스를 이용하기 위해서 고객은 특정 번호로 전화를 걸어 그들이 찾고 있는 것 (역: 목적지, 혹은 사람이름)이 무엇인지 말해야 한다. 시스템이 이를 재차 확인하여 말해주고, 사용자가 그것을 받아들이거나 다시 질의가 반복되면 시스템은 해당 단어가 말해질 수 있는 다양한 방법들에 대한 레코드를 남긴다. 그들은 목소리를 이해하는 것이 아니다. 확률을 계산한다.

이러한 서비스를 런칭하기 위해서 구글은 완성되어있는 음성 인식 시스템이 필요했고, 이 분야의 대표 기업인 Nuance로부터 소프트웨어 라이센스를 취득했었다. 하지만 구글 자신이 음성 질의에 대한 데이터를 가지고 있으므로, 그들의 음성 인식 시스템은 결국 현재 관련있는 모든 업체와의 제휴로 많은 데이터들에 대한 접근 권한을 얻으려 노력 중인 Nuance보다 좋은 성능을 낼 것이다.

데이터의 재이용은 어떻게 연산이 이루어지는 지에 대한 새로운 모델을 제시한다고 프린스턴 대학의 Edward Felten은 말한다. “커다란 데이터 집합들을 보고 어떤 일들이 함께 일어나고 있는지를 추론하는 것은 기대했던 것보다 훨씬 빠르게 발전하고 있습니다. ‘이해’는 과대 평가된 것으로 밝혀지고 있고 통계적인 분석이 이를 대체하고 있습니다.” 많은 인터넷 기업들도 이제 이러한 시각을 가지고 있다. 페이스북은 사용을 촉진시키기 위해서 그들의 엄청난 양의 데이터베이스를 정기적으로 검사하고 있다. 이용자가 그 사이트의 활성화에 기여할지 여부를 예측하는 가장 좋은 변수는 이용자의 친구들이 활동적이었는지 보는 것이라는 것을 찾아냈고, 따라서 가입자들에게 그들의 친구들이 온라인 상에서 푹 빠져 있었던 것에 대한 정보를 보내주었다. 온라인 게임 회사인 Zynga는 그들의 게임을 발전시키기 위해서 1억 명의 고유 플레이어를 매달 추적한다.

“만약 이용자가 생성하는 생성 데이터를 손에 넣을 수 있으면, 우리들은 단지 알고리즘을 개선 시키는 것보다 훨씬 좋은 시스템을 개발 할 수 있을 것입니다.” 과거 아마존의 최고 과학자였고, 지금은 스탠포드 대학에 있는 Andreas Weigend는 말했다. 많은 기업에서 이사로 재직 중인 벤처 투자자이자, 웹의 첫 번째 상업용 브라우저였던 Netscape의 창업자인 Marc Andreessen은 “이러한 새로운 기업들은 커다란 양의 데이터를 다룰 수 있는 문화, 프로세스, 기술을 만들어 왔고 이는 전통적인 기업들이 간단히 가질 수 없는 것이다.” 라고 생각한다.

Data exhaust의 재활용은 구글 제국에서 진행 중인 수많은 프로젝트들의 공통 주제이자, 왜 그들 대부분이 “베타” 혹은 초기 테스트 버전 이라는 딱지를 붙이고 있는지 설명해준다. 그들은 정말로 끊임없는 개발이 진행 중인 것이다. 구글 이용자로 하여금 의료 기록을 저장할 수 있게 해주는 서비스는 구글에게 질병과 치료에 대한 유용한 패턴을 찾아낼 수 있게 할 것이다. 이용자들이 그들의 장치 각각의 전기 소비량을 감시할 수 있게 해주는 서비스는 에너지 소비에 대한 풍부한 정보를 제공할 것이다. 이는 세계 최고의 가전제품과 전자기기들에 대한 데이터 베이스가 될 것이고 이를 통해 고장을 예측할 수도 있을 것이다. 구글이 무료로 공개하고 있는 수집된 검색 질의들을 이용하면 소매 매출부터 플루의 창궐까지 모든 것들을 높은 정확성으로 예측할 수 있을 것이다.

통틀어, 이 모든 것들은 구글의 원대한 목표 “세계의 정보를 조직화”와 일맥상통한다. 아직은 단어를 신중하게 써야 한다. 구글은 데이터를 소유할 필요가 없다. 일반적으로 구글이 원하는 것은 데이터에 접근할 권리를 가지는 것이다. (그리고 그의 라이벌들은 그럴 수 없는 상황이다) 작년 9월 조용히 시작된 “데이터 해방 운동”이라 불리는 새로운 시도에서 구글은 그들의 모든 서비스를 변경하여 사용자들이 서비스들을 쉽게 중단하고, 그들의 데이터를 회수할 수 있도록 계획 중이다. 고객을 묶어 두는 것 에서 쌓아 올려진 산업에서, 구글은 “탈출을 위한 장벽”을 줄이기를 바란다고 말하고 있다. 이는 기술자들이 많은 최고 기술 기업의 저주인 ‘현재 상태에 안주’하지 않도록 도울 수 있을 것이다. 이 프로젝트는 이로 인해 사업 상 손실이 발생하기 시작하면 중단 될 수도 있다. 하지만 구글은 아마 사용자들이 자신들의 정보를 쉽게 거두어들일 수 있다는 사실을 알면 더 많은 정보를 구글과 나누고 싶어 할 것이라고 예상한다.

[Economist] 데이터 홍수 (The data deluge)

데이터 홍수

Feb 25th 2010 |
From The Economist print edition

산업, 정부, 사회가 이제 막 그 엄청난 잠재력을 이용하기 시작했다

18개월 전, Li & Fung이라는 소매상을 위한 유통 체인을 관리하는 한 회사는 그들의 네트워크를 통해서 하루에 100기가 바이트의 정보가 흘러가는 것을 보았다. 이제, 그 양은 10배가 늘었다. 2009년 동안 미국의 무인 항공기는 이라크와 아프가니스탄 등지를 비행하며 24년의 길이에 해당하는 비디오 화면을 전송했다. 올해 배치될 새 모델은 과거의 기종에 비해서 10배에 달하는 실시간 데이터를 전송할 것이고, 2011년에는 30배로 늘어날 것이다.

당신이 어디를 보든, 전 세계에서 정보의 양은 증가하고 있다. 한 측정에 따르면 인류는 2005년 150 엑사바이트 (백만기가바이트)의 데이터를 생성했다. 올해, 1,200 엑사 바이트를 생성할 것이다. 단순히 이 정보의 홍수를 쫓아가는 것과 유용해 보이는 것을 저장하는 것 조차 어려워졌다. 이들을 분석하고, 패턴을 찾아내고, 유용한 정보를 추출해 내는 것은 더욱 어렵다. 그럼에도, 이 데이터의 홍수는 벌써 산업, 정부, 과학 그리고 일상 생활을 변화시키기 시작했다. 이는 소비자, 기업 그리고 정부가 언제 데이터의 흐름을 규제하고, 언제 촉진 시킬지에 대한 올바른 판단을 하는 한 호혜적인 커다란 잠재력을 가지고 있다.

쓰레기 더미에서 다이아몬드를 뽑아내기

몇몇 산업이 데이터를 수집하고 활용하는 능력을 기르는데 앞장서고 있다. 신용카드 회사들은 모든 상거래를 살펴보고 수십 억 개의 거래에서 뽑아낸 몇 규칙들을 적용하여 사기성 거래가 무엇인지 높은 정확도로 구별해 낸다. 예를 들어 거래를 감추기 쉽기 때문에 도난 된 신용카드는 와인보다는 위스키를 사는데 많이 사용된다. 보험회사들도 단서들을 조합하여 의심스러운 지불 요청 찾아내는데 능하다. 사기성 지불 요구는 화요일보다는 월요일에 많이 발생하는데, 왜냐하면 사고를 꾸며내는 보험계약자들은 주말 동안 가짜 목격자 역할을 할 친구들을 포섭하는 경향이 있기 때문이다. 이러한 많은 규칙들을 적용하여 어떤 카드가 도난 된 것일 가능성이 크고, 어떤 지불 요구가 의심스러운지 알아낼 수 있다.

한편, 이동 통신사들도 가입자들의 전화 이용 행태를 분석하여, 예들 들면 그들이 가장 자주 연락하는 상대가 경쟁사의 가입자인지 등을 알아낼 수 있다. 만약 경쟁사가 그 가입자를 끌어가기 위한 좋은 조건의 프로모션을 진행한다면, 이들을 붙잡아 두기 위한 다른 인센티브를 제시할 수도 있다. 오래된 산업들도 최근에는 요즘 등장하는 산업들처럼 열성적으로 데이터를 이용하고 있다. 오프라인과 온라인 상점들은 데이터 마이닝의 대가들이다. (혹은 “비지니스 인텔리젼스” 현재 알려진 것 처럼) 장바구니 정보를 분석하여 슈퍼마켓들은 딱 맞는 프로모션을 특정 고객의 입맛에 맞게 제공할 수 있다. 석유 산업에서는 시추 전에 슈퍼 컴퓨터를 사용하여 지진 발생 데이터를 철저하게 분석한다. 그리고 천문학자들은 별들을 향한 망원경 처럼 소프트웨어 질의 도구를 디지털로 된 천체 측량에 이용한다.

아직도 갈 길은 멀다. 몇 년의 노력에도 불구하고, 법의 집행과 정보 기관의 데이터베이스는 대체로 연결되어있지 않다. 의료 보험에서, 의료 기록의 디지털화는 치료 경향을 발견하고 감시하고, 다른 치료법들의 효과를 평가는 것을 훨씬 쉽게 만들어 줄 수 있다. 하지만 의료 기록들을 전산화 하려는 폭넓은 노력들은 관료적이고, 기술적이며 또한 윤리적인 문제에 봉착하는 경향이 있다. 온라인 광고는 이미 오프라인 광고보다 훨씬 더 정확하게 타켓팅 되고 있지만 더 개인화되어 나아갈 수 있는 여지가 있다.

이것이 현실화 되면 광고주들을 돈을 더 지불한 용의가 있을 것이며, 결국 이러한 광고를 받아들일 준비가 된 소비자들은 더 풍부하고 넓은 범위의 무료 온라인 서비스를 제공 받을 수 있음을 의미한다. 그리고 정부는 뒤늦게 범죄자, 지도, 공공 서비스 실행에 대한 정부 계약의 세부 사항 및 통계 등 더 많은 정보를 대중에게 공개하려는 계획에 착수했다. 사람들은 이러한 정보를 새로운 방법으로 재활용하여 사업을 시작하던지, 혹은 민선 공무원에게 책임을 물을 수 있을 것이다. 이러한 새로운 기회를 잡은 기업이나 혹은 다른 이들이 그럴 수 있게 도구를 제공한 기업은 번창할 것이다. “Business Intelligence”는 소프트웨어 산업에서 가장 빠르게 성장하는 분야 중 하나이다.

좋지 않은 소식들

하지만 데이터의 홍수도 몇몇 위험을 야기한다. 예로 가득 찬 데이터베이스가 도난 당한다면, 사회 보장 연금 정보로 가득 찬 디스크들이 사라질 수도 있고, 세금 정보를 저장해 놓은 랩탑을 택시에 두고 내릴 수도 있고, 신용카드 정보가 온라인 소매상에서 유출 될 수도 있다. 결과는 개인 정보의 침해, 도용, 그리고 사기이다. 개인 정보 위반은 이러한 범법 행위가 없어도 가능하다. 페이스북이나 구글이 예상치 않게 그들의 온라인 소셜 네트워크의 개인 정보 설정을 변경하고 이는 자신도 모르게 개인 정보 공개를 초래한다. 더욱 해로운 위협이 다양한 종류의 “Big Brother”화 된 것들, 특별히 정부가 기업들에게 그들의 고객정보를 넘겨달라고 강요 할 때 등에 의해 초래된다. 자신의 개인 정보를 소유하고 관리하는 것 대신에, 사람들은 그 정보에 대한 통제권을 잃어버린다.

이러한 데이터 홍수의 단점들에 대처하는 가장 좋은 방법은 역설적으로 다양한 분야에서 더 투명성을 가지기를 요구해서 더 많은 데이터를 올바른 방법으로 공개하는 것이다. 첫 째, 사용자들에게는 그들에 대한 정보를 더 잘 접근하고 누구와 공유할 것인지 설정할 지가 포함된, 관리할 수 있는 권한이 주어져야 한다. 예를 들어 구글은 이용자들에게 구글이 이용자들의 어떤 정보를 가지고 있는지 볼 수 있게 하고, 그들의 검색기록을 삭제할 수 있으며, 광고의 대상을 수정할 수 있게 한다. 둘째로, 세계의 몇몇 지역에서는 이미 현실화 되었지만 기관에게는 관리자들이 정보 보안을 더 심각하게 생각할 수 있도록 보안 결함들의 세부 사항을 공개하는 것이 요구된다. 세 번째로, 기관들은 연례 보안 감사의 대상이 되어야 하며 결과 등급은 대중에게 공개 되어야 한다. (비록 공개된 문제의 세부 사항들까지는 아니더라도) 이는 기업들에게 그들의 보안을 최신으로 유지하게 하는 동기부여가 될 수 있다.

데이터를 잘 관리하는 기업이 아닌 기업에 비해서 선호되는 환경에서 이는 구매 충동에 본격적으로 영향을 미칠 것이다. 이 세 분야에서의 뛰어난 투명성은 보안을 증대시키고, 혁신을 억누르는 복잡한 규제가 필요 없이도 사람들에게 더 많은 그들의 데이터에 대한 권한을 줄 것이다. 결국, 데이터 홍수에 대처하는 배움의 과정이, 그리고 어떻게 그것을 이용할 수 있을지 알아내는 과정이, 이제 막 시작되었다.

영어 원문

[#M_ more.. | less.. |

The data deluge

Businesses, governments and society are only starting to tap its vast potential

Feb 25th 2010 | From The Economist print edition

EIGHTEEN months ago, Li & Fung, a firm that manages supply chains for retailers, saw 100 gigabytes of information flow through its network each day. Now the amount has increased tenfold. During 2009, American drone aircraft flying over Iraq and Afghanistan sent back around 24 years’ worth of video footage. New models being deployed this year will produce ten times as many data streams as their predecessors, and those in 2011 will produce 30 times as many.

Everywhere you look, the quantity of information in the world is soaring. According to one estimate, mankind created 150 exabytes (billion gigabytes) of data in 2005. This year, it will create 1,200 exabytes. Merely keeping up with this flood, and storing the bits that might be useful, is difficult enough. Analysing it, to spot patterns and extract useful information, is harder still. Even so, the data deluge is already starting to transform business, government, science and everyday life (see our special report in this issue). It has great potential for good—as long as consumers, companies and governments make the right choices about when to restrict the flow of data, and when to encourage it.

Plucking the diamond from the waste

A few industries have led the way in their ability to gather and exploit data. Credit-card companies monitor every purchase and can identify fraudulent ones with a high degree of accuracy, using rules derived by crunching through billions of transactions. Stolen credit cards are more likely to be used to buy hard liquor than wine, for example, because it is easier to fence. Insurance firms are also good at combining clues to spot suspicious claims: fraudulent claims are more likely to be made on a Monday than a Tuesday, since policyholders who stage accidents tend to assemble friends as false witnesses over the weekend. By combining many such rules, it is possible to work out which cards are likeliest to have been stolen, and which claims are dodgy.

Mobile-phone operators, meanwhile, analyse subscribers’ calling patterns to determine, for example, whether most of their frequent contacts are on a rival network. If that rival network is offering an attractive promotion that might cause the subscriber to defect, he or she can then be offered an incentive to stay. Older industries crunch data with just as much enthusiasm as new ones these days. Retailers, offline as well as online, are masters of data mining (or “business intelligence”, as it is now known). By analysing “basket data”, supermarkets can tailor promotions to particular customers’ preferences. The oil industry uses supercomputers to trawl seismic data before drilling wells. And astronomers are just as likely to point a software query-tool at a digital sky survey as to point a telescope at the stars.

There’s much further to go. Despite years of effort, law-enforcement and intelligence agencies’ databases are not, by and large, linked. In health care, the digitisation of records would make it much easier to spot and monitor health trends and evaluate the effectiveness of different treatments. But large-scale efforts to computerise health records tend to run into bureaucratic, technical and ethical problems. Online advertising is already far more accurately targeted than the offline sort, but there is scope for even greater personalisation.

Advertisers would then be willing to pay more, which would in turn mean that consumers prepared to opt into such things could be offered a richer and broader range of free online services. And governments are belatedly coming around to the idea of putting more information—such as crime figures, maps, details of government contracts or statistics about the performance of public services—into the public domain. People can then reuse this information in novel ways to build businesses and hold elected officials to account. Companies that grasp these new opportunities, or provide the tools for others to do so, will prosper. Business intelligence is one of the fastest-growing parts of the software industry.

Now for the bad news

But the data deluge also poses risks. Examples abound of databases being stolen: disks full of social-security data go missing, laptops loaded with tax records are left in taxis, credit-card numbers are stolen from online retailers. The result is privacy breaches, identity theft and fraud. Privacy infringements are also possible even without such foul play: witness the periodic fusses when Facebook or Google unexpectedly change the privacy settings on their online social networks, causing members to reveal personal information unwittingly. A more sinister threat comes from Big Brotherishness of various kinds, particularly when governments compel companies to hand over personal information about their customers. Rather than owning and controlling their own personal data, people very often find that they have lost control of it.

The best way to deal with these drawbacks of the data deluge is, paradoxically, to make more data available in the right way, by requiring greater transparency in several areas. First, users should be given greater access to and control over the information held about them, including whom it is shared with. Google allows users to see what information it holds about them, and lets them delete their search histories or modify the targeting of advertising, for example. Second, organisations should be required to disclose details of security breaches, as is already the case in some parts of the world, to encourage bosses to take information security more seriously. Third, organisations should be subject to an annual security audit, with the resulting grade made public (though details of any problems exposed would not be). This would encourage companies to keep their security measures up to date.

Market incentives will then come into play as organisations that manage data well are favoured over those that do not. Greater transparency in these three areas would improve security and give people more control over their data without the need for intricate regulation that could stifle innovation. After all, the process of learning to cope with the data deluge, and working out how best to tap it, has only just begun.

_M#]