Economist – Page 5 – Book of Ryu's past and future in another universe, Chapter 4.

[Economist] 사회적 상태로의 이동 (Towards a socialized state)

사회적 상태로의 이동

자유로운 커뮤니케이션의 즐거움

소셜 네트워킹이 미래에는 어떤 모습이 될까? 이렇게 상상해보자: 실제 방영되기 전에 몇몇의 친구들과 소셜 네트워크 상에서 이야기 했던 텔레비젼 쇼를 당신의 디지털 비디오 레코더가 자동으로 녹화한다. 혹은: 당신의 차를 타고 내비게이션을 켠 후 당신의 친구의 집으로 안내해주기를 부탁한다. 당신이 드라이브 웨이를 벗어나자, 당신과 친구가 함께 속해있는 소셜 네트워크에서는 자동으로 친구에게 당신이 그를 향하고 있음을 알려준다. 그리고 또: 당신은 틀림없이 친구도 관심 있을 것 같은 러닝 슈즈를 사면서 체크아웃 카운터 옆에 있는 키패드를 몇 번 클릭해서 친구의 네트워크 페이지로 이 신발의 사진을 보낼 수도 있다.

네트워킹 방식들은 사람들이 의사 소통하는 모든 것 안에 내재된 사회적 요소가 있다는 발상에 대해서 이야기 하기를 좋아한다. 이러한 모든 것에 충분히 귀 기울이면 당신은 당신의 찻주전자가 곧 당신이 아침을 먹어야 한다는 것에 대해서 삑삑 거릴 것이라는 느낌을 가질 것이다. 위에서의 개략적인 생각들이 설득력 없이 들릴 수도 있지만, 사람들로 하여금 그들의 온라인 관계에 대한 소셜 그래프를 다른 여타 웹에서 가능한 서비스들로 옮겨가는 것을 가능하게 해주는 Facebook 같은 서비스들은 이러한 생각들이 완전히 생소한 것은 아니라는 것을 말해준다. 자동차에서 렌지까지 모든 것들은 궁극적으로 내재된 사회적 연결을 가질 수 있다.

하지만 소셜 네트워킹 서비스가 항시성을 가지도록 돕는 측면에서는, 휴대전화 이상 중요한 것은 그것들 중에는 아무것도 없을 것이다. 상태 정보를 업데이트 하거나 메시지를 보내기 위해 웹이 가능한 휴대전화를 사용하는 것은 아직 많은 국가에서 제한적인 활동이지만, 향후 몇 년간 광대역 모바일 서비스가 유선 서비스를 능가하게 되면서 곧 빠르게 주류로 부상할 것이다. eMarket의 조사에 따르면 2013년까지는 6억이 넘는 인구가 소셜 네크워크를 이용하기 위해 그들의 휴대전화를 이용할 것이고, 이는 작년 1억 4000만이라는 숫자의 4배가 넘는 것이다.

Dial-a-pal

이러한 변화는 많은 것을 함축하고 있다. 우선, 신흥 시장에서의 휴대전화나 저렴한 넷북 같은 기기들은 지금까지 느리고 PC가 있어야 쓸 수 있기 때문에 걸림돌이 되었던 새로운 사용자들의 소셜 사이트 이용을 촉발 시킬 것이다. 동아프리카에서의 첫 번째 모바일 소셜 네트워크라고 자신들을 홍보하는 케냐의 Sembuse, 남아프리카의 Mxit 같은 기업들은 벌써 수백 만 명이 넘는 사람들이 그들의 휴대전화를 통해 연결할 준비를 갖추고 있고 이는 전 세계에서 공유되는 정보의 양에 큰 활력소를 제공할 것이다.

휴대전화에 기반한 네트워킹의 성장은 부유한 나라들의 시장에도 영향을 미칠 것이다. 빠르고 상대적으로 저렴한 모바일 광대역 서비스 덕택에, 아시아에서 휴대전화는 벌써 인터넷 사이트들을 방문할 때 사용되는 각광받는 기기가 되었다. 1800만 명의 회원을 보유한 일본에서 가장 큰 소셜 네트워크인 Mixi의 경영진인 Shigeya Kawagishi는 그들의 트래픽 대부분은 휴대전화를 소유한 이용자가 하루에 업데이트를 확인하기 위해 4~5번 체크인을 할 때 발생하는 것이라고 말한다. 6500만 명의 모바일 이용자를 보유한 페이스북은 모바일 이용자들이 다른 이용자들에 비해서 1.5배는 더 활동적이라고 말한다.

On location

이러한 모바일 이용 추세는 다음의 대세는 가상의 데이터들이 실 세계의 사물과 연계되는 위치 기반 네트워킹 앱들이 될 것이라는 추측에 힘을 실어준다. 이러한 앱들은 트위터의 Mr.Stone(역: Biz Stone, 공동 창업자)이 말하는 것처럼 근처에 있을지도 모르는 친구들을 찾기 위해 자신이 어디 있다는 신호를 휴대전화로 보내는 것 등의 새로운 재미를 찾을 수 있게 해준다. Foursquare나 Gowalla 같은 몇몇 신생기업들은 이러한 생각을 바탕으로 사업을 전개 중이고, 트위터 역시 참여할 계획을 가지고 있다. 트위터가 원하는 대로 사람들이 그들의 트윗에 위치 정보를 포함시키도록 하면, 이러한 데이터는 바로 광고나 혹은 이곳 저곳을 이동하는 사람에 맞춰진 서비스들에 이용될 수 있다.

어떤 사람들에게는, 기술이 친구들과의 우연한 만남을 성사시킨다는 생각이 마치 꿈이 현실화 되는 것처럼 보일 것이다. 다른 이들에게는, 한곳에서 다른 곳으로 이동할 때마다 추적된다는 생각이 빅 브라더를 느끼게 하는 악몽 같은 전망일 수 있다. 소셜 네트워크를 운영하는 사람들에게는, 위치 기반의 네트워킹은 그들의 기술을 인간답게 만들고, 이를 커다란 글로벌 수준의 개방성을 촉발시키도록 이용하려는 노력의 논리적인 연장선 상에 있다.

네트워크 서비스들의 설립자들은 그들의 서비스가 가져다 줄 이점에 대한 거의 유토피아적인 믿음을 가지고 있는 것처럼 보인다. 예를 들어, 페이스북의 Zuckerberg는 그의 기업이나 혹은 유사한 다른 기업들이 인간 상호 작용에 있어서 가져다 주는 이 커다란 개방성을 “대규모의 전쟁을 제외한다면 아마 가장 커다란 우리 세대의 변화 시키는 힘”이라고 묘사한다. Mr.Stone, 그 자신은 트위터를 “비록 아직 멀었지만 세계를 변화시킬 수 있는 잠재력을 가진 매우 중요한 무엇”으로 생각하고 있다.

처음 등장한 인터넷을 두고도 이와 비슷한 류의 발언들이 있었다. 하지만 인터넷은, 웹은 돈을 버는데 아무런 도움이 되지 않을 것이라 생각하는 사람이나 단순히 직원들이 웹을 포르노를 보거나 온라인 포커를 치는 데에만 사용할 것이라 생각하는 사장들로부터 많은 비판도 받았다. 이러한 비관론자들은 아마존이나 구글이 인터넷을 이용해 잘 나가는 모습이나, 인터넷이 기업의 생산성 향상이나 신선한 아이디어를 만들어 내기 위한 새롭고 뛰어난 도구를 제공하는 모습을 보고 충격에 휩싸였다.

소셜 네트워크 간의 유사점이 눈에 띈다. 이는 별로 놀라운 것이 아닌데 왜냐하면 이를 네트워크 역시 인터넷의 창조물들이고 인터넷의 아버지 Tim Berners-Lee 경이 그러기를 바랬던 것의 궁극적 표현이기 때문이다. 그의 책 “Weaving the Web”에서 인터넷은 기술적 산물이라기 보다는 항상 사회적 산물에 가깝다고 설명한다. 다른 무엇보다도 사람들이 서로 협력 하기 쉽게 만들어 줄 수 있는 무엇인가가 되는 것이 그가 밝힌 궁극적인 목표이다.

이 스페셜 리포트는 소셜 네트워크들이 벌써 이러한 목표의 많은 부분을 이뤄왔다고 주장했다. 이 네트워크들은 사람들이 실제 개인정보를 사용해서 만날 수 있는 신뢰받는 온라인 공간을 만들어 왔다. 또한 기업들에게는 그들의 고객에게 다가가고 영향을 미칠 수 있는 새로운 길을 제공했다. 고용주와 유능한 고용인이 과거 어느 때보다도 더 쉽게 연결될 수 있게 함으로서 노동시장에서의 마찰을 줄여왔다. 그리고 기업 내에서의 정보 흐름의 속도를 빠르게 하는데도 기여했다.

이러한 모든 것들이 인상적인 성과이다. 하지만 이러한 소셜 네트워크 사이트들의 가장 중요한 기여는 공짜인, 엄청나게 강력한 커뮤니케이션과 협력 도구들을 지구상에서 광대역 인터넷에 접속되어 있는 모든 이에게 제공했다는 사실이라는 것에 의심의 여지는 없다. 이 기술의 민주화는 웹을 사회화 시키고 사람 뿐 아니라 기업과 정부가 의사 소통하는 방법을 근본적으로 변화 시키고 있다.

이는 또한 누구라도 몇 번의 마우스 클릭을 거치면 자신 만의 전세계에 걸친 토론 그룹을 쉽게 만들 수 있게 해준다. 이는 얼마 전 까지도 이러한 일을 달성하기 위해 필요한 재정적이고 기술적인 영향력을 가진 기업이나 기관의 엘리트 그룹들의 전유물이었다. 이제, 페이스북과 그 유사한 서비스들이 만들어낸 기술 덕분에 수백 만개의 이러한 토의가 매우 간단하게 방법을 통해 동시에 일어날 수 있다. 세계는 이로 인해 더 나아질 것이다.

[Economist] 블로그 마이닝(Blog mining)

블로그 마이닝

Mar 11th 2010 |
From The Economist print edition

유용한 정보를 찾기 위해 블로그들을 샅샅이 뒤지다

“도어매트가 살짝 구부러진 각도로 놓여있는 것을 깨달았습니다. 나는 몸을 구부려 그 매트를 원래 자리로 옮겨놨지요.” 세계에서 가장 재미없는 블로그의 최근 글은 이렇게 시작한다. 비록 이런 문구가 인터넷의 알맹이 없는 블로그들에 대한 일종의 풍자이지만, 과학자들은 – 놀랍게도 – 지루한 블로고스피어에서 유용한 정보가 나올 것이라 믿고 이를 찾고 있다.

로스엔젤레스에 위치한 USC의 창의적 기술 연구소의 Andrew Gordon과 그의 동료들은 컴퓨터에게 원인과 그 결과를 가르치기 위해 노력하고 있다. 컴퓨터들은 인과 관계를 다루는 데는 적합하지 않다. 컴퓨터가 특정 이벤트를 인식할 수는 있지만 관계까지 밝혀내는 것은 너무 어렵다. 이는 컴퓨터를 사용하여 인간의 경험을 분석하고자 할 때 특히 그렇다.

하지만 컴퓨터가 개인적인 블로그를 읽음으로써 많은 인과 관계를 학습할 수 있다는 것이 밝혀졌다. 매일 영어로 작성되는 백만 개쯤 되는 블로그 글들은 대부분 뉴스에 대한 커맨트, 활동 계획, 아니면 일상에 대한 개인적 생각들이다. 약 5% 정도는 최근 작성자에게 일어난 사건에 대한 이야기를 들려주고 있다.

그들의 컴퓨터 시스템이 블로그들을 학습하게 하기 위해서, 연구진들은 2단계의 과정을 진행했다. 첫 번째 단계는 사람들에게 수천 개의 블로그 글들을 “스토리” (역:시간의 흐름에 따른 순차적인 서술)와 “스토리가 아닌 것”으로 분류하게 했다. 사람들은 스토리를 이야기 할 때 다른 형태의 담화들에 비해서 다른 단어들을 다른 빈도로 사용한다. 선택된 블로그 글에서 나타나는 대명사와 과거 동사들의 빈도를 계산하여 그 내용이 무엇이든 상관없이 이 두 가지 종류를 구분하는 것이 가능하다고 Gordon 박사는 말한다. 그의 컴퓨터 시스템은 다른 블로그 글들을 보고 그것이 서술인지 아닌지를 밝혀냈다.

두 번째 단계는 시스템이 인과 관계를 구분할 수 있도록 가르치는 것이다. 여기서도 연구팀은 거의 비슷한 기술을 사용한다. 고든 박사와 그의 학생들은 수천 개의 임의의 블로그 글들을 읽고 인과관계로 연관된 구들을 특별히 표시하여 컴퓨터가 알아볼 수 있게 했다. (“나는 X를 했기 때문에 Y가 일어났다” 같은) 이러한 구들을 블로그 글에서 구분해 놓으면 컴퓨터는 “나는 브레이크를 세게 밟았지만 결국 내 앞의 차와 부딪히고 말았다.” 혹은 “그 의사는 내가 너무 기름지게 먹어서 심장 상태가 위험한 지경이라고 나를 꾸짖었다.” 같은 원인과 결과가 포함된 문장을 골라내고 분류하는 것이 가능해진다.

이것이 결국에는 시스템으로 하여금 다수 대중의 개인적 삶에 대한 취합된 통계정보를 매일매일 모으는 것이 가능하게 할 것이라는 것이 핵심이며 이는 다른 방법을 통해서는 얻어내기 불가능한 정보가 될 것이라는 것이다. 궁극적으로, Gordon 박사는 웹 로그의 개인적 이야기들에 대한 분석이 훨씬 더 확장된 구글의 Flu 추적과 같은 형태로 사용 될 것이라고 예상한다. 구글의 Flu 추적은 특정 지역에서 flu와 관련된 검색어가 집중적으로 나타나는 현상에 대한 검색 데이터 마이닝으로 인플루엔자 발병의 초기 징조를 찾아냄으로써 가능하다.

약물 복용이나 영화에 흥미를 가지게 만드는 인종 갈등, 신 제품 등등의 모든 것들을 포함하는 새로운 유행이나 행동에 관한 정보를 추적하기 위해 웹이 이용된다. 블로그는 본질적으로 사람들이 그들의 일상에 대한 커멘트를 재빠르게 올리는 것을 의미한다. 따라서 이러한 종류의 정보를 캐내어 어떻게 아이디어가 퍼져나가고 유행이 생겨나는지에 대한 정확한 내용을 밝혀낼 것이다.

웹 이전의 세상에서는 일상의 자질구레한 일에 대해 떠드는 것은 주위 사람들에게만 알려졌고, 글로 쓰여지지 않았다. 따라서 이러한 분석의 대상이 되지도 못했다. 나중에 사람들이 읽어줄 것을 위해 일상을 적고 강박적으로 누가 글을 읽었는지 알아보기 위해 방문자수를 확인하고 있는 오늘날의 블로그 운영자들은 최소한 컴퓨터는 그들의 글이 흥미진진하다는 사실을 알아준다는 생각에 위로 받을 수 있다.

영어 원문

[#M_ more.. | less.. |

Analysing the web

Blog mining Scouring blogs for useful information

Mar 11th 2010 |
From The Economist print edition

“I NOTICED that the doormat was at a slightly crooked angle. I reached down and moved the mat back into its correct place.” Thus began a recent entry on The dullest blog in the world. Although this publication is something of a satire on the internet’s inane blogs, scientists are finding—to their surprise—that useful information can actually be mined from the tedium of the blogosphere.

Andrew Gordon and his colleagues at the University of Southern California’s Institute for Creative Technologies in Los Angeles have been trying to teach computers about cause and effect. Computers are not good at dealing with causality. They can identify particular events but working out relationships is more difficult. This is particularly true when it comes to using computers to analyse the human experience.

But it turns out that computers can learn a lot about causality by reading personal blogs. Of the million or so blog entries that are written in English every day, most are comments on news, plans for activities, or personal thoughts about life. Roughly 5% are narratives telling stories about events that have recently happened to the author.

To enable their computer system to learn from blogs, the team followed a two-step process. The first step was for humans to flag thousands of blog entries as either “story” or “not story”. People use different words with different frequencies when they are telling stories, as compared with other forms of discourse. By tallying up the frequencies of parts of speech such as pronouns (I, she, we) and past-tense verbs (went, said, thought) in these flagged blogs, it is possible to distinguish between the two types—regardless of what the story is actually about, says Dr Gordon. His computer system could then look at other blog entries and work out whether they were narrative or not.

The second step was to teach the system to identify causal connections. Here the team used much the same technique. Dr Gordon and his students read thousands of random blog entries and specifically pointed out phrasing associated with causal relationships (such as “I did X so then Y happened”) for the computer to pick up on. Identifying such phrases in blog entries then enables the computer to pick out and categorise those sentences that contain a cause and an effect, such as “I slammed on the brakes but ended up smashing into the car in front of me” or “The doctor scolded me for eating too much fat and risking a heart condition.”

The idea is that this will eventually lead to a system that can gather aggregated statistics on a day-by-day basis about the personal lives of large populations—information that would be impossible to garner from any other source. Ultimately, Dr Gordon expects the analysis of personal stories in weblogs to be used much like Google’s flu tracker, but on a much grander scale. Google’s flu-tracking scheme can detect early signs of influenza outbreaks by mining search data for flurries of flu-related search terms in a particular region.

The web could be mined to track information about emerging trends and behaviours, covering everything from drug use or racial tension to interest in films or new products. The nature of blogging means that people are quick to comment on events in their daily lives. Mining this sort of information might therefore also reveal information about exactly how ideas are spread and trends are set.

In the world before the web, chatter about the trivialities of everyday life was shared in person, and not written down, so it could not be subjected to such analysis. While recording their words for posterity and obsessively checking their hit counters to see if anyone is reading them, today’s blog authors can console themselves with the thought that computers, at least, find their work fascinating.

_M#]

[Economist] 금을 위한 클릭 (Clicking for gold)

금을 위한 클릭

Feb 25th 2010 |
From The Economist print edition

인터넷 기업들은 웹의 데이터를 통해 어떻게 돈을 버는가?

잠깐! Amazon.com은 그들이 당신에 대해서 무엇을 알고 있는지 들키지 않기를 바란다. 그들은 당신이 구입한 책의 목록 뿐 아니라, 뒤적거렸으나 구입하지 않은 책을 기록하고 있으며 이를 이용해 다른 책을 추천하기도 한다. 그들의 e-book인 킨들로부터 수집한 정보는 한층 다양하다. 사용자가 각 페이지를 읽는데 얼마나 걸리는지, 별도의 노트를 하는지 등등. 하지만 아마존은 어떤 데이터들을 수집하고 그들을 어떻게 이용하는지 밝히기를 거부한다.

이뿐 아니다. 인터넷 산업 전체에 걸쳐 기업들은 사람들의 활동, 선호, 혐오, 다른 사람과의 관계, 어느 순간에 어느 위치에 있었는지 등에 대한 대량의 정보를 수집하면서도 침묵을 지키고 있다. 예를 들어 소셜 네트워킹 사이트 페이스북은 그들의 4억 이용자들의 활동을 기록하고, 이 중 절반은 매일 이 사이트에서 한 시간 가량을 보내지만 그들이 무엇을 수집하는지에 대해서는 침묵을 지키고 있다. 구글은 약간의 내용을 공개했지만, 나머지 대부분은 숨기고 있다. 온라인 경매 사이트 eBay 조차 침묵을 지킨다.

“그들은 이것이 이슈화 되는 것이 편치 않습니다. 왜냐하면 이것이 그들이 가지고 있는 경쟁력의 핵심이기 때문입니다.” 기술 전문가이자 발행인인 Tim O’Reilly는 말했다. “데이터는 법정 화폐와 같습니다. 이를 가지지 못한 다른 기업과 큰 격차를 벌릴 수 있게 해줍니다.” 웹에서 가장 큰 사이트 중 하나의 홍보 책임자는 “우리는 이 문제에 대해 심도 있게 논의할 위치에 있지 않습니다. 그것은 사생활 같은 민감한 고려 사항과는 별로 관계가 없습니다. 대신, 우리는 단지 우리의 전략을 드러내 놓을 준비가 되어 있지 않은 것입니다.” 라고 인정했다. 다시 말해, 기업은 소중한 업계의 비밀에 대해서 밝히고 싶지 않은 것이다.

이러한 침묵은 부분적으로 고객의 우려할 경우, 혹은 정부가 반갑지 않은 관심을 가질 경우에 대한 기업들의 염려를 반영한다. 하지만 이는 두 가지 이유에서 너무 근시안적이다. 첫째로, 정치가들과 대중은 이미 불안해하고 있다. 미 연방 무역 위원회의 회장 Jon Leibowitz는 산업 전체가 적극적으로 해결에 나서고 있지 않다고 공개적으로 비판했다. 둘째로, 만약 이용자가 어떻게 데이터가 이용되는지 안다면, 아마도 염려하기 보다는 인상 깊어 할 것이다.

전통적인 산업에서는 고객에 대한 정보를 그들의 구매나 설문조사에 의해 얻는 것이 일반적이었지만, 인터넷 기업들은 그들의 웹 사이트에서 일어나고 있는 모든 일로부터 데이터를 수집할 수 있는 풍요로움을 누리고 있다. 거대한 웹 사이트들은 정보 그 자체가 그들의 가장 큰 보물이라는 것을 오래 전부터 인식하고 있었다. 그리고 이러한 정보는 전통적인 기업들이 도저히 대적할 수 없는 방식으로 바로 사용될 수 있다.

이러한 기술 중 몇몇은 널리 이용되고 있다. 새로운 기능을 실제 구현하기 전에, 거대 사이트들은 어떤 것이 가장 잘 동작하는 지에 대한 통제된 실험을 진행한다. 영화를 대여해 볼 수 있게 제공하는 Amazon과 Netflix은 다른 사용자들이 무엇을 좋아하는 지에 기반하여 사용자들에게 영화를 추천하는 협업적 필터링이라 불리는 통계적 기법을 사용한다. 그들이 사용하는 기술로 인해 수백만 달러의 추가 매출이 일어났다. 거의 3분의 2에 해당하는 소비자의 선택이 컴퓨터에 의한 소개를 통해 이루어졌다.

첫 눈에 보기에는 중립적인 상업 거래를 위한 플랫폼 이상이 아닐 것 같은 eBay도 물건을 내놓는 행동, 입찰, 가격 동향, 검색어, 사용자가 한 페이지를 보는 시간 등 수집한 정보들을 통해 수없이 많은 조정을 한다. 모든 제품 분류는 능동적으로 관리되는 하나의 미시 경제처럼 다루어진다. 많이 검색되지만 잘 팔리지는 않는 고가의 상품은 충족되지 않은 요구를 나타내고, 따라서 eBay는 상품 게시를 늘리기 위해 판매자 보험을 제공할 파트너를 찾는다.

가지고 있는 데이터로부터 가장 많은 것을 얻어내는 기업은 구글이다. 상상할 수 없을 만큼 많은 양의 정보로부터 새로운 경제적 가치를 만들어 내는 것은 그들의 생명선이다. 이는 설립 11년이 지난 기업의 시가 총액이 조사 결과 1700억불에 달하는 것이 이상하게 느껴지지 않는 이유를 말해준다. 구글은 사용자와의 인터렉션이나, 자동적으로 서비스를 향상 시키거나 완전히 새로운 제품을 만들기 위해 재활용되는 data exhaust의 부산물인 정보를 활용하고 있다.

마우스를 통한 투표

구글의 창업자 중 한명인 Larry Page가 검색을 위한 페이지 랭크 알고리즘을 고안한 1998년까지 검색 엔진들은 구현 자체가 널리 공개된 시스템인 한 웹 페이지 상에서 한 단어가 몇 번이나 나타나는 지를 계산하는 방법으로 단어와 웹 페이지의 관계성을 결정했다. 구글의 혁신은 다른 페이지로부터 현재 페이지로 향하는 링크의 개수를 세는 것이다. 이러한 링크는 인터넷 사용자가 대체적으로 중요한 자료라고 믿는 것에 대한 투표 역할을 했다. 많은 인용이 책의 우수성을 말해주는 것처럼, 많은 링크는 그 웹 페이지가 더 유용하다는 것을 뜻한다.

구글의 시스템은 하나의 발전이었지만, 이를 속이기 위해 만들어진 “링크 스팸”의 남용에 취약했다. 구글의 기술자들은 실제 사용자가 클릭하거나 머물게 될 검색 결과로 노출 되었을 때 별점을 매기는 것이 해결책이라는 것을 깨달았다. 구글 검색은 1/4초 만에 2백만 개의 결과 페이지를 내놓지만, 사용자들은 오직 하나의 페이지만을 원하고 이를 선택함으로써 구글에게 그들이 무엇을 찾고 있었는지를 말해준다. 따라서 이 알고리즘은 서비스에 피드백된 정보를 통해 자동으로 재조정된다.

이를 통해 구글은 이것이 데이터 마이닝에 관련된 것이라는 사실을 깨달았다. 이 모델은 간단한 경제 용어로 바꾸어보면, 검색 결과를 통해 $1의 가치를 제공한다 하면, (이용자의 클릭 덕택에) 다시 1센트를 되돌려 받는 것이다. 다음 이용자가 방문했을 때, 그는 $1.01의 가치를 얻게 되고 이것이 반복된다. 한 직원은 이를 “우리는 거대하고 ‘산만한’ 데이터들을 통해 배우는 것을 좋아합니다.”라고 말했다.

커다란 데이터의 뒤에서 발전을 이루어내고 있는 것은 구글 만이 아니고, 또 새로운 기술도 아니다. 가장 눈에 띄는 예는 미 해군의 Matthew Fontaine Maury가 태평양을 건너는 선박들로부터 항해 일지를 수합하여 바람과 해류가 가장 적합한 경로를 찾을 수 있을 것이라고 생각했던 19세기 중반으로 거슬러 올라간다. 그는 그의 지도 사본을 항해 일지를 제공한 선장에게 제공해서 “전염적인” 소셜 네트워크의 색다른 초기 형태를 만들었다. 하지만 이 과정은 느렸고, 수고스러운 일이었다.

마법 스펠링

구글은 이러한 데이터들로부터 재귀적으로 학습하는 방법을 그들의 많은 서비스에도 적용하고 있고, 거의 모든 언어에서 아마 세계 최고의 맞춤법 검사기를 만들어낸 선구적인 방법에도 이것이 사용되고 있다. 마이크로소프트는 그들이 지난 20년 동안 그들의 워드프로세서를 위한 강력한 맞춤법 검사기능을 만드는데 수백만 달러를 썼다고 말한다. 하지만 구글은 이 기능을 위한 원료를 공짜로 얻었다. 그들의 프로그램은 사용자들이 검색 창에 타이핑한 잘못된 단어들과 올바른 결과를 클릭한 “교정”에 기초한다. 하루에 거의 30억에 달하는 검색 건으로 이러한 결과는 곧 산더미처럼 쌓인다. 1990년대의 다른 검색 엔진들도 같은 것을 할 수 있는 기회가 있었지만 실제 실행에 옮기지는 않았다. 2000년 경에 야후가 이의 잠재력을 보았지만, 실천에 옮기지는 않았다. 사용자와 상호작용의 쓰레기 더미에서 금가루를 발견하고 이 모두를 수집하는 수고를 떠맡은 것은 구글이었다.

최근 구글의 2가지 서비스인 번역과 음성인식도 같은 방식이다. 양쪽 모두 인공 지능 분야의 컴퓨터 과학자들에게는 커다란 장애물이었다. 40년이 넘는 기간 동안 과학자들은 언어의 음성과 구조를 이해하는 컴퓨터를 만들기 위해 노력해왔다. 이는 올바른 시제 등을 가지는 한 문장에서 어디에 명사와 동사가 위치하는지 등의 규칙을 정의하는 것을 의미한다. 규칙에 어긋나는 모든 예외들 역시 입력되어야 했다. 이와는 반대로 구글은, 이를 많은 데이터와 연산 능력만 있으면 풀 수 있는 커다란 수학 문제로 보았고, 실제 유용한 해결책을 찾아내었다.

번역을 위해서 구글은 그들의 다른 서비스들을 이용 할 수 있었다. 그들의 검색 시스템은 20여 개 국의 언어로 번역된 유럽 연합 집행 기관의 문서들을 찾아 낼 수 있다. 그들의 책을 스캐닝 하는 프로젝트는 다른 여러가지 언어로 번역된 수천개의 책 제목들을 가지고 있다. 이러한 모든 번역의 질은 표준을 준수하기 위해 전문가들에 의해 이루어져서 아주 좋은 상태이다. 따라서 컴퓨터에게 언어의 규칙을 가르치려 노력하는 대신에, 구글은 통계적 추론을 만들기 위해 텍스트 그 자체에 집중했다. 구글의 엔지니어인 Frans Och에 따르면 구글 번역기는 현재 50개 이상의 언어를 처리할 수 있다. 이 시스템은 한 언어의 단어나 구를 가지고 다른 언어에서의 가장 비슷한 동등어를 찾아낼 수 있다. 만약 직접 번역이 힘든 경우 (예를 들어, 힌두어와 카탈로니아어), 영어가 중간 다리 역할을 한다.

구글이 이러한 방법을 처음 사용한 것은 아니다. 1990년대 초반 IBM은 캐나다의 국회에서의 번역을 이용하여 프랑스어-영어 번역프로그램을 만드려 시도한 적이 있다. 하지만 제대로 동작하지 않았고, 이 프로젝트는 폐기 되었다. IBM은 오직 폐기 처분된 수백 만개의 문서를 가지고 있었다고 Och는 무시하듯이 말했다. 구글은 수십 억개를 가지고 있다. 구글의 시스템은 초기에 약 2조개의 단어를 처리하여 개발되었다. 엄청난 양의 데이터로 학습되었지만, 이는 맞춤법 검사와 검색의 재귀적인 특성이 부족했다.

이러한 피드백 루프의 디자인은 중요하다. 구글은 사용자들에게 그들의 의견을 묻지만 그 이상은 없다. 독일에서 개발된 Linguee라는 번역기는 조금 다른 방법을 시도한다. 사용자에게 가능한 번역의 샘플들을 제시하고 가장 적당한 것을 클릭하도록 한다. 이는 어떤 것이 가장 정확했는지에 대한 피드백이 될 수 있다.

음성 인식은 Data exhaust 이용의 중요성을 강조한다. 구글의 전화번호부나, 음성 자동차 내비게이션 서비스를 이용하기 위해서 고객은 특정 번호로 전화를 걸어 그들이 찾고 있는 것 (역: 목적지, 혹은 사람이름)이 무엇인지 말해야 한다. 시스템이 이를 재차 확인하여 말해주고, 사용자가 그것을 받아들이거나 다시 질의가 반복되면 시스템은 해당 단어가 말해질 수 있는 다양한 방법들에 대한 레코드를 남긴다. 그들은 목소리를 이해하는 것이 아니다. 확률을 계산한다.

이러한 서비스를 런칭하기 위해서 구글은 완성되어있는 음성 인식 시스템이 필요했고, 이 분야의 대표 기업인 Nuance로부터 소프트웨어 라이센스를 취득했었다. 하지만 구글 자신이 음성 질의에 대한 데이터를 가지고 있으므로, 그들의 음성 인식 시스템은 결국 현재 관련있는 모든 업체와의 제휴로 많은 데이터들에 대한 접근 권한을 얻으려 노력 중인 Nuance보다 좋은 성능을 낼 것이다.

데이터의 재이용은 어떻게 연산이 이루어지는 지에 대한 새로운 모델을 제시한다고 프린스턴 대학의 Edward Felten은 말한다. “커다란 데이터 집합들을 보고 어떤 일들이 함께 일어나고 있는지를 추론하는 것은 기대했던 것보다 훨씬 빠르게 발전하고 있습니다. ‘이해’는 과대 평가된 것으로 밝혀지고 있고 통계적인 분석이 이를 대체하고 있습니다.” 많은 인터넷 기업들도 이제 이러한 시각을 가지고 있다. 페이스북은 사용을 촉진시키기 위해서 그들의 엄청난 양의 데이터베이스를 정기적으로 검사하고 있다. 이용자가 그 사이트의 활성화에 기여할지 여부를 예측하는 가장 좋은 변수는 이용자의 친구들이 활동적이었는지 보는 것이라는 것을 찾아냈고, 따라서 가입자들에게 그들의 친구들이 온라인 상에서 푹 빠져 있었던 것에 대한 정보를 보내주었다. 온라인 게임 회사인 Zynga는 그들의 게임을 발전시키기 위해서 1억 명의 고유 플레이어를 매달 추적한다.

“만약 이용자가 생성하는 생성 데이터를 손에 넣을 수 있으면, 우리들은 단지 알고리즘을 개선 시키는 것보다 훨씬 좋은 시스템을 개발 할 수 있을 것입니다.” 과거 아마존의 최고 과학자였고, 지금은 스탠포드 대학에 있는 Andreas Weigend는 말했다. 많은 기업에서 이사로 재직 중인 벤처 투자자이자, 웹의 첫 번째 상업용 브라우저였던 Netscape의 창업자인 Marc Andreessen은 “이러한 새로운 기업들은 커다란 양의 데이터를 다룰 수 있는 문화, 프로세스, 기술을 만들어 왔고 이는 전통적인 기업들이 간단히 가질 수 없는 것이다.” 라고 생각한다.

Data exhaust의 재활용은 구글 제국에서 진행 중인 수많은 프로젝트들의 공통 주제이자, 왜 그들 대부분이 “베타” 혹은 초기 테스트 버전 이라는 딱지를 붙이고 있는지 설명해준다. 그들은 정말로 끊임없는 개발이 진행 중인 것이다. 구글 이용자로 하여금 의료 기록을 저장할 수 있게 해주는 서비스는 구글에게 질병과 치료에 대한 유용한 패턴을 찾아낼 수 있게 할 것이다. 이용자들이 그들의 장치 각각의 전기 소비량을 감시할 수 있게 해주는 서비스는 에너지 소비에 대한 풍부한 정보를 제공할 것이다. 이는 세계 최고의 가전제품과 전자기기들에 대한 데이터 베이스가 될 것이고 이를 통해 고장을 예측할 수도 있을 것이다. 구글이 무료로 공개하고 있는 수집된 검색 질의들을 이용하면 소매 매출부터 플루의 창궐까지 모든 것들을 높은 정확성으로 예측할 수 있을 것이다.

통틀어, 이 모든 것들은 구글의 원대한 목표 “세계의 정보를 조직화”와 일맥상통한다. 아직은 단어를 신중하게 써야 한다. 구글은 데이터를 소유할 필요가 없다. 일반적으로 구글이 원하는 것은 데이터에 접근할 권리를 가지는 것이다. (그리고 그의 라이벌들은 그럴 수 없는 상황이다) 작년 9월 조용히 시작된 “데이터 해방 운동”이라 불리는 새로운 시도에서 구글은 그들의 모든 서비스를 변경하여 사용자들이 서비스들을 쉽게 중단하고, 그들의 데이터를 회수할 수 있도록 계획 중이다. 고객을 묶어 두는 것 에서 쌓아 올려진 산업에서, 구글은 “탈출을 위한 장벽”을 줄이기를 바란다고 말하고 있다. 이는 기술자들이 많은 최고 기술 기업의 저주인 ‘현재 상태에 안주’하지 않도록 도울 수 있을 것이다. 이 프로젝트는 이로 인해 사업 상 손실이 발생하기 시작하면 중단 될 수도 있다. 하지만 구글은 아마 사용자들이 자신들의 정보를 쉽게 거두어들일 수 있다는 사실을 알면 더 많은 정보를 구글과 나누고 싶어 할 것이라고 예상한다.

[Economist] 데이터, 사방의 데이터 (Data, Data everywhere)

데이터, 사방의 데이터

Feb 25th 2010 |
From The Economist print edition

정보가 희박한 상태에서 넘쳐나도록 바뀌었다. 이것이 Kenneth Cukier의 말처럼 많은 이점을 가져다 주었지만, 또한 골칫거리 이기도 하다.

슬로운 디지털 스카이 서베이가 2000년에 시작되었을 때, 뉴멕시코에 있는 망원경은 첫 몇 주 동안 천문학 역사 전체에 걸쳐 수집된 것 보다 많은 데이터를 모았다. 10년이 지난 현재, 그들의 저장소에는 140테라 바이트라는 엄청난 양의 정보가 저장되어있다. 2016년에 칠레에 설치될 이의 후속 Large Synoptic Survey 망원경은 이 정도 양의 데이터를 5일 이면 모을 것이다.

이러한 천문학적인 양의 정보는 지구에 더 가까운 곳에서도 찾을 수 있다. 거대 소매상 월 마트는 1백만 건의 소비자 구매 건을 처리하고 2.5 페타 바이트 이상으로 측정되는 데이터베이스에 이들을 보관한다. 이는 미의회도서관에 있는 책의 167배에 달하는 양이다. 소셜 네트워크 웹 사이트 페이스북은 400억 개의 사진을 보유하고 있다. 그리고 인간 유전자에 포함된 30억 기본 쌍을 분석하는데 최초로 이것이 이루어졌던 2003년에는 10년이 걸렸지만 지금은 1주면 충분하다.

이러한 모든 예들은 같은 것을 시사한다. 세계에는 상상도 할 수 없을 만큼 거대한 양의 디지털 정보들이 점점 더 거대해지고, 더 빠르게 늘어나고 있다. 이는 예전에는 이룰 수 없었던, 비지니스 트랜드를 파악하고, 질병을 예방하고, 범죄와 싸우는 등을 가능하게 해준다. 잘 관리 된다면, 이러한 데이터는 과학에 있어서 신선한 통찰을 제시하고, 정부에 책임을 묻는 등, 새로운 경제적 가치의 원천으로 활용될 수 있다.

하지만 이들은 또한 다수의 문제점을 만들어낸다. 센서, 컴퓨터, 모바일 폰 등의 이러한 모든 정보를 얻고, 처리하고, 공유하는 도구들은 넘쳐나지만, 이들을 저장할 가용 공간이 크게 부족하다. 게다가, 전세계적으로 어느 때보다 활발하게 정보가 복제되고 공유되는 때에 데이터의 보안과 사생활 보호 등은 점점 더 어려워지고 있다.

존스 홉킨스 대학의 천체 물리학자 Alex Szalay는 데이터의 풍족함이 오히려 이들을 더 다루기 어렵게 만든다고 지적한다. 그는 “어떻게 이 모든 데이터를 이해해야 하나요? 사람들은 다음 세대를 어떻게 교육시킬지에 대해서 고민해야 합니다. 과학자 뿐 아니라, 정부나 산업에서 일하는 사람 모두요.” 라고 말한다.

“우리는 너무도 많은 정보들이 만드는 이전과는 다른 세상을 살고 있습니다.” 사회에서의 정보의 역사에 관한 다수의 책을 집필한 IBM의 James Cortada는 말한다. UC 버클리의 컴퓨터 과학자 Joe Hellerstein은 이것을 “데이터의 산업 혁명”이라고 부른다. 이의 영향력은 산업분야에서 과학분야까지, 정부에서 예술 분야까지 모든 곳에서 느낄 수 있다. 과학자들과 컴퓨터 기술자들은 이러한 현상을 “big data”라고 불러왔다.

인식론적으로 말해서, 정보는 데이터의 집합으로 구성되고, 지식은 각각의 서로 다른 정보들의 묶음으로 구성된다. 하지만 이 스페셜 리포트에서는 “데이터”와 “정보”를 서로 혼용해서 사용한다. 왜냐하면, 나중에 다루어지겠지만, 이 둘은 서로 구분하기 점점 어려워지고 있다. 주어진 충분한 양의 순수한 데이터에서, 현재의 알고리즘과 강력한 컴퓨터들을 가지고 과거에는 숨겨져 있었던 새로운 통찰을 발견해 낼 수 있다.

정보 관리 산업 – 어떤 조직이 그들의 풍부한 데이터를 이해하도록 돕는 – 은 대폭 성장하고 있다. 최근 몇 년간 오라클, IBM, 마이크로소프트 그리고 이들 사이의 SAP은 150억불 이상을 데이터를 관리하고 분석하는데 특화된 소프트웨어 기업을 사들이는데 썼다. 이 산업은 최소 1000억불 이상의 값어치로 평가되며 대충 소프트웨어 산업 전체가 성장하는 속도의 2배인 연간 10% 정도 성장하고 있다.

최고 정보 관리 책임자는 경영진 사이에서 그 중요성이 커져왔고, 또한 소프트웨어 프로그래머, 통계학자 그리고 스토리 텔러/예술가의 기술을 모두 가지고 산처럼 많은 데이터 속에 숨겨진 금 덩어리를 발견하는 데이터 과학자라는 새로운 형태의 전문가가 등장했다. 구글의 최고 경제 전문가 Hal Varian은 이런 통계 전문가의 직업이 가장 매력적이 될 것이라고 예측했다. 그가 설명하기를, 데이터는 어디에나 존재하지만 그 속에서 지혜를 찾아내는 능력은 부족하다는 것이다.

모든 것 그 이상

이러한 정보의 폭발에는 여러 이유가 있다. 가장 확실한 것 하나는 기술이다. 디지털 기기의 능력이 발전하고 가격은 곤두박질 치면서 센서나, 미니기기들은 예전에는 불가능했던 엄청나게 많은 정보를 디지털화 시키고 있다. 그리고 더욱 더 많은 사람들이 더 강력한 도구들을 사용하고 있다. 예를 들어서 세계적으로는 46억 명의 모바일 폰 가입자가 존재한다. (많은 사람들이 하나 이상을 사용하기 때문에, 이러한 수치가 제시하는 것 만큼 세계의 68억 인구 모두에게 보급되어 있지는 않다.) 그리고 10억에서 20억의 사람들이 인터넷을 사용한다.

게다가, 정보를 통해 의사 소통하는 사람들이 더욱 증가했다. 1990년과 2005년 사이에 세계적으로 10억의 사람이 중산층 계급에 진입했다. 그들이 더 부유해지고, 문맹에서 벗어남에 따라, 정보양의 증가에 기여했다고 Cortada씨는 말한다. 그 결과는 정치, 경제 뿐 아니라 법 등의 각 분야에서 나타났다. “과학에서의 혁명 전에 측량에서의 혁명이 있었습니다.” 뉴욕 대학의 경영학 교수 Sinal Aral는 말한다. 현미경이 세균을 발견하여 생물학을 변화시키고, 전자 현미경이 물리학을 변화시킨 것처럼, 모든 이러한 데이터는 사회 과학을 거꾸로 뒤집고 있다고 그는 설명했다. 연구자들은 인간의 행동을 인구 차원의 레벨이 아닌 개인 레벨에서 이해하는 것이 가능해졌다.

디지털 정보의 양은 매 5년마다 10배씩 증가하고 있다. 컴퓨터 산업에서 이제는 당연시되는 무어의 법칙은 컴퓨터 칩의 프로세스 파워와 저장 용량이 두 배가 되고 가격은 절반이 되는데 18개월이 걸린다 한다. 소프트웨어 프로그램도 나날이 향상되고 있다. 프린스턴 대학의 컴퓨터 과학자 Edward Felten은 컴퓨터 어플리케이션들을 구동시키는 알고리즘의 발전이 지난 몇 십 년 동안 무어의 법칙의 중요한 부분으로서 역할을 해왔다고 측정한다.

이러한 정보의 많은 양이 공유되고 있다. 통신장비 메이커인 Cisco에 따르면 2013년까지 인터넷을 통해 흘러 다니는 트래픽의 양은 연간 667 엑사바이트에 달할 것이라고 한다. 그리고 데이터의 양은 지속적으로 네트워크가 운송할 수 있는 양보다 더 빠른 속도로 증가할 것이라 한다. 사람들은 그들이 정보의 늪에서 허우적댄다고 불평해왔다. 1917년으로 돌아가 한 코네티컷의 제조 회사의 매니져는 전화의 영향에 대해서 불평을 했다. : “시간은 낭비되고 혼란스러운 결과만 낳고, 돈은 돈대로 낭비된다.” 지금 일어나고 있는 일들은 점진적 증가 이상이 될 것이다. 양적인 팽창은 질적인 다름을 만들어내기 시작했다.

정보의 부족에서 과다에의 이동은 폭 넓은 변화를 가져온다. “우리가 관심 있는 것은 데이터를 통해 경제적인 성과를 낼 수 있는 능력이다. 그리고 이것은 나에게는 사회적 차원에서, 혹은 거시경제학 차원에서의 큰 변화이다.” 라고 마이크로소프트의 연구와 전략 책임자 Graig Mundie는 말한다. 데이터는 자본이나 노동력과 거의 동등한 레벨의 경제적 인풋으로 경영의 새로운 원자재가 되고 있다. “매일 나는 잠에서 일어나 묻습니다, 어떻게 데이터를 잘 흘러가게 하고, 데이터를 잘 관리하고, 데이터를 잘 분석할 수 있을까?” 월마트의 CIO Rollin Ford는 말한다.

복잡한 정량적 분석은 과거처럼 미사일 궤도 분석이나 재정의 연계 전략 뿐 아니라 삶의 많은 분야에서 적용되어 왔다. 예를 들어, 마이크로소프트의 검색엔진 Bing의 일부분인 Farecast는 고객에게 항공 티켓을 지금 구입할지, 아니면 가격이 내려가기를 기다릴지를 2250억 개의 비행과 가격 기록을 살펴본 후 조언해 줄 수 있다. 같은 아이디어가 호텔 룸이나, 자동차, 비슷한 아이템까지 확장 될 수 있다. 개인 금융 웹 사이트와 은행들은 그들의 고객 데이터를 종합하여 거시 경제학 트랜드를 밝혀내고 이는 그들 자신의 노력을 통해 보조적인 비지니스로 발전될 수 있다. 숫자에 빠삭한 이들은 일본의 스모에서 승부 조작이 있었다는 사실까지 밝혀냈다.

쓰레기를 금으로

“데이터 배기가스” – 인터넷 사용자들이 뒤에 남기는 클릭의 자취에서 가치가 발견될 수 있다 – 가 인터넷 경제의 중심이 되고 있다. 예의 하나로서 검색 질의 문과의 연관성을 얼마나 많은 클릭이 그 대상에 있었느냐에 따라 측정하는 구글의 검색 엔진을 들 수 있다. 만약 어떤 검색어의 8번째 결과를 사람들이 가장 많이 방문한다면 이 알고리즘은 이것을 가장 위에 위치 시킨다.

세계가 점점 디지털로 변화하면서 데이터를 모으고 분석하는 것이 다른 분야에서도 막대한 양의 이익을 가져다 줄 수 있다. 예를 들어, 마이크로소프트의 Mundie와 구글의 CEO, Eric Schmidt는 미국 건강 보험의 개혁을 위한 대통령 테스크 포스에 임명되었다. “일의 초기 단계에서는 Eric과 저 모두는 말했죠. ‘보세요, 당신이 만약 정말로 건강 보험을 개혁하기를 원한다면, 당신은 기본적으로 사람들과 관련된 데이터에서 일종의 건강 보험 경제 구조를 만들어야 합니다.’ “ Mundie는 설명했다. “건강 보험을 제공하는 것의 산출물로서 데이터를 생각하면 안됩니다, 그 대신 데이터는 건강 보험의 모든 면을 어떻게 증진 시킬지 구체화 시키려는 과정에서의 중심적인 자산이 되어야 합니다. 이는 약간의 도치입니다.”

틀림없이, 디지털 기록은 의사들을 편하게 만든다. 공급자와 환자를 위한 가격을 낮추고 치료의 질을 높인다. 하지만 종합적으로 데이터는 원치 않은 마약 거래나, 가장 효과적인 치료법을 찾아내거나, 증상이 나타나기 전에 질병의 시작을 예측하기 위해서도 사용되고 있다. 컴퓨터는 벌써 이러한 일을 시도하고 있지만, 명시적으로 이러한 목적으로 프로그램 될 필요가 있다. 거대한 데이터의 세계에서는 사물의 연관 관계들이 이들에 의해 수면 위로 떠오른다.

때로는 이러한 데이터들이 의도한 것 이상을 밝혀내기도 한다. 예를 들어 캘리포니아에 있는 Oakland 시에서는 언제 어디서 검거가 이루어졌는지 정보를 Oakland Crimespotting이라는 사설 웹 사이트에 공개했다. 어느 순간, 몇몇의 클릭이 매춘을 위해 분주한 거리 전체를 경찰은 월요일 저녁을 제외하고는 매일 순찰한다는, 그들이 숨기고 싶었던 전략을 밝혀냈다.

하지만 많은 양의 데이터는 이러한 결과들보다 훨씬 더 심각한 결과를 낸다. 최근의 금융 위기 기간에 은행과 신용 평가 기관들이 엄청난 양의 정보를 이용하면서도 현실 세계의 금융 위험을 제대로 반영하는데 실패한 모델에 의존했다는 사실이 명확해졌다. 이는 거대한 양의 데이터에 의해 촉발된 첫 번째 위기였다. 그리고 이러한 예는 앞으로도 더 있을 것이다.

정보가 관리되는 방법은 삶에 전반적으로 영향을 미친다. 20세기로의 변화의 시점에 전신이나 전화 같은 새로운 채널을 통한 정보의 흐름이 대량 생산을 뒷받침했다. 현대의 풍부한 데이터의 가용성이 기업들로 하여금 세계 곳곳에 위치한 작은 틈새 시장를 노릴 수 있게 한다. 경제적인 생산이 관리자가 모든 기계과 작업을 감시하여 이를 더 효율적으로 만드는 공장의 기본이었다. 지금 통계학자들은 경영에서 새로운 아이디어를 위한 정보를 발굴한다.

“데이터 중심의 경제가 이제 막 선보였을 뿐입니다.” 라고 마이크로소프트의 Mundie는 선언했다. “대충의 윤곽은 확인할 수 있습니다. 하지만 기술적인, 기반 시설의 그리고 비지니스 모델에의 영향들은 현재로서는 잘 이해되지 않습니다.” 이 스페셜 리포트는 어디에서 이러한 현상들이 나타날지를 가리키게 될 것이다.

영어 원문

[#M_ more.. | less.. |

A special report on managing information

Feb 25th 2010 |
From The Economist print edition

Data, data everywhere

Information has gone from scarce to superabundant. That brings huge new benefits, says Kenneth Cukier (interviewed here)—but also big headaches

WHEN the Sloan Digital Sky Survey started work in 2000, its telescope in New Mexico collected more data in its first few weeks than had been amassed in the entire history of astronomy. Now, a decade later, its archive contains a whopping 140 terabytes of information. A successor, the Large Synoptic Survey Telescope, due to come on stream in Chile in 2016, will acquire that quantity of data every five days.

Such astronomical amounts of information can be found closer to Earth too. Wal-Mart, a retail giant, handles more than 1m customer transactions every hour, feeding databases estimated at more than 2.5 petabytes—the equivalent of 167 times the books in America’s Library of Congress (see article for an explanation of how data are quantified). Facebook, a social-networking website, is home to 40 billion photos. And decoding the human genome involves analysing 3 billion base pairs—which took ten years the first time it was done, in 2003, but can now be achieved in one week.

All these examples tell the same story: that the world contains an unimaginably vast amount of digital information which is getting ever vaster ever more rapidly. This makes it possible to do many things that previously could not be done: spot business trends, prevent diseases, combat crime and so on. Managed well, the data can be used to unlock new sources of economic value, provide fresh insights into science and hold governments to account.

But they are also creating a host of new problems. Despite the abundance of tools to capture, process and share all this information—sensors, computers, mobile phones and the like—it already exceeds the available storage space (see chart 1). Moreover, ensuring data security and protecting privacy is becoming harder as the information multiplies and is shared ever more widely around the world.

Alex Szalay, an astrophysicist at Johns Hopkins University, notes that the proliferation of data is making them increasingly inaccessible. “How to make sense of all these data? People should be worried about how we train the next generation, not just of scientists, but people in government and industry,” he says.

“We are at a different period because of so much information,” says James Cortada of IBM, who has written a couple of dozen books on the history of information in society. Joe Hellerstein, a computer scientist at the University of California in Berkeley, calls it “the industrial revolution of data”. The effect is being felt everywhere, from business to science, from government to the arts. Scientists and computer engineers have coined a new term for the phenomenon: “big data”.

Epistemologically speaking, information is made up of a collection of data and knowledge is made up of different strands of information. But this special report uses “data” and “information” interchangeably because, as it will argue, the two are increasingly difficult to tell apart. Given enough raw data, today’s algorithms and powerful computers can reveal new insights that would previously have remained hidden.

The business of information management—helping organisations to make sense of their proliferating data—is growing by leaps and bounds. In recent years Oracle, IBM, Microsoft and SAP between them have spent more than $15 billion on buying software firms specialising in data management and analytics. This industry is estimated to be worth more than $100 billion and growing at almost 10% a year, roughly twice as fast as the software business as a whole.

Chief information officers (CIOs) have become somewhat more prominent in the executive suite, and a new kind of professional has emerged, the data scientist, who combines the skills of software programmer, statistician and storyteller/artist to extract the nuggets of gold hidden under mountains of data. Hal Varian, Google’s chief economist, predicts that the job of statistician will become the “sexiest” around. Data, he explains, are widely available; what is scarce is the ability to extract wisdom from them.

More of everything

There are many reasons for the information explosion. The most obvious one is technology. As the capabilities of digital devices soar and prices plummet, sensors and gadgets are digitising lots of information that was previously unavailable. And many more people have access to far more powerful tools. For example, there are 4.6 billion mobile-phone subscriptions worldwide (though many people have more than one, so the world’s 6.8 billion people are not quite as well supplied as these figures suggest), and 1 billion-2 billion people use the internet.

Moreover, there are now many more people who interact with information. Between 1990 and 2005 more than 1 billion people worldwide entered the middle class. As they get richer they become more literate, which fuels information growth, notes Mr Cortada. The results are showing up in politics, economics and the law as well. “Revolutions in science have often been preceded by revolutions in measurement,” says Sinan Aral, a business professor at New York University. Just as the microscope transformed biology by exposing germs, and the electron microscope changed physics, all these data are turning the social sciences upside down, he explains. Researchers are now able to understand human behaviour at the population level rather than the individual level.

The amount of digital information increases tenfold every five years. Moore’s law, which the computer industry now takes for granted, says that the processing power and storage capacity of computer chips double or their prices halve roughly every 18 months. The software programs are getting better too. Edward Felten, a computer scientist at Princeton University, reckons that the improvements in the algorithms driving computer applications have played as important a part as Moore’s law for decades.

A vast amount of that information is shared. By 2013 the amount of traffic flowing over the internet annually will reach 667 exabytes, according to Cisco, a maker of communications gear. And the quantity of data continues to grow faster than the ability of the network to carry it all.

People have long groused that they were swamped by information. Back in 1917 the manager of a Connecticut manufacturing firm complained about the effects of the telephone: “Time is lost, confusion results and money is spent.” Yet what is happening now goes way beyond incremental growth. The quantitative change has begun to make a qualitative difference.

This shift from information scarcity to surfeit has broad effects. “What we are seeing is the ability to have economies form around the data—and that to me is the big change at a societal and even macroeconomic level,” says Craig Mundie, head of research and strategy at Microsoft. Data are becoming the new raw material of business: an economic input almost on a par with capital and labour. “Every day I wake up and ask, ‘how can I flow data better, manage data better, analyse data better?” says Rollin Ford, the CIO of Wal-Mart.

Sophisticated quantitative analysis is being applied to many aspects of life, not just missile trajectories or financial hedging strategies, as in the past. For example, Farecast, a part of Microsoft’s search engine Bing, can advise customers whether to buy an airline ticket now or wait for the price to come down by examining 225 billion flight and price records. The same idea is being extended to hotel rooms, cars and similar items. Personal-finance websites and banks are aggregating their customer data to show up macroeconomic trends, which may develop into ancillary businesses in their own right. Number-crunchers have even uncovered match-fixing in Japanese sumo wrestling.

Dross into gold

“Data exhaust”—the trail of clicks that internet users leave behind from which value can be extracted—is becoming a mainstay of the internet economy. One example is Google’s search engine, which is partly guided by the number of clicks on an item to help determine its relevance to a search query. If the eighth listing for a search term is the one most people go to, the algorithm puts it higher up.

As the world is becoming increasingly digital, aggregating and analysing data is likely to bring huge benefits in other fields as well. For example, Mr Mundie of Microsoft and Eric Schmidt, the boss of Google, sit on a presidential task force to reform American health care. “Early on in this process Eric and I both said: ‘Look, if you really want to transform health care, you basically build a sort of health-care economy around the data that relate to people’,” Mr Mundie explains. “You would not just think of data as the ‘exhaust’ of providing health services, but rather they become a central asset in trying to figure out how you would improve every aspect of health care. It’s a bit of an inversion.”

To be sure, digital records should make life easier for doctors, bring down costs for providers and patients and improve the quality of care. But in aggregate the data can also be mined to spot unwanted drug interactions, identify the most effective treatments and predict the onset of disease before symptoms emerge. Computers already attempt to do these things, but need to be explicitly programmed for them. In a world of big data the correlations surface almost by themselves.

Sometimes those data reveal more than was intended. For example, the city of Oakland, California, releases information on where and when arrests were made, which is put out on a private website, Oakland Crimespotting. At one point a few clicks revealed that police swept the whole of a busy street for prostitution every evening except on Wednesdays, a tactic they probably meant to keep to themselves.

But big data can have far more serious consequences than that. During the recent financial crisis it became clear that banks and rating agencies had been relying on models which, although they required a vast amount of information to be fed in, failed to reflect financial risk in the real world. This was the first crisis to be sparked by big data—and there will be more.

The way that information is managed touches all areas of life. At the turn of the 20th century new flows of information through channels such as the telegraph and telephone supported mass production. Today the availability of abundant data enables companies to cater to small niche markets anywhere in the world. Economic production used to be based in the factory, where managers pored over every machine and process to make it more efficient. Now statisticians mine the information output of the business for new ideas.

“The data-centred economy is just nascent,” admits Mr Mundie of Microsoft. “You can see the outlines of it, but the technical, infrastructural and even business-model implications are not well understood right now.” This special report will point to where it is beginning to surface.

_M#]

[Economist] A World of Connections : a special report on social networking

본 내용은 Economist의 1월 Special Report인 A World of Connections 중 Profiting from friendship 부분을 번역한 것임

Friendship을 통해 돈을 벌기

소셜 네트워크에는 비판하는 사람들이 생각하는 것보다 더 많은 돈을 벌 기회가 있다.

실리콘밸리의 기업가들은 절반은 농담조로 URL 전략이라고들 부른다. 이 3글자는 보통 인터넷을 통해 접근이 가능한 고유의 파일을 나타내는 Uniform Resource Locator를 지칭한다. 하지만 인터넷의 신생 기업들 사이에서 URL은 다른 뜻을 가진다. Ubiquity first, Revenue Later. 일단 널리 퍼뜨리고, 나중에 수익을 거둔다. 이는 지난 몇 년 동안 이익을 낼 걱정은 하지 않고 사용자들을 끌어 모으는데 집중한 대부분의 거대한 온라인 소셜 네트워크들의 전략 중 상당히 많은 부분을 설명한다. 이러한 전략 덕택에 많은 사용자들을 확보하는데 성공했지만 그 끌어 모은 이용자들로부터 어떻게 수익을 낼지에 대한 커다란 의문을 남겨놓았다.

구글이 그들이 제공하는 검색 결과와 나란히 의도된 광고를 보여주며 수십억 달러를 벌어들일 수 있었던 것과 같은 방법으로 소셜 네트워크 산업이 엄청나게 성공적인 형태의 광고를 통해 스타덤에 오를 수 있을지가 현재의 이슈이다. 주장은 이에서 더 나아가 이러한 공식 없이는 페이스 북 같은 소셜 네트워크는 절대 성공할 수 없다는 데까지 이른다.

회의론자들은 이러한 네트워크가 두 가지 커다란 핸디캡을 안고 있다고 주장한다. 첫째로는 사람들이 소셜 네트워크 사이트에 로그인 하는 것은 친구들과 어울리기 위해서이므로 광고는 신경도 쓰지 않을 것이라는 점이다. 두 번째는 이러한 사이트들은 사용자들이 그들만의 컨텐츠를 만들도록 하는데, 저속하거나, 음란하거나 선정적인, 혹은 이 셋 모두와 함께 자신들의 광고가 노출되는 위험을 광고주들은 원하지 않고 따라서 그들을 끌어 모으기도 힘들 것이라는 것이다.

미미한 클릭율

회의론자들도 나름대로의 근거가 있다. 페이스북 같은 사이트에 보여지는 광고를 클릭하는 비율은 구글의 정확하게 겨냥된 검색 광고에 비하면 아주 작다. 그리고 광고주들이 그들의 브랜드를 소셜 사이트 페이지를 통해 광고하고 싶어하긴 하지만, 몇몇은 이러한 저조한 클릭율 때문에 광고 개제를 요청하는 것을 꺼려한다. “우리는 대부분의 시간을 이러한 네트워크를 통해 사람들과 소통하는데 사용하고 있습니다. 그들에게 광고하는 것이 아닙니다.” 포드사의 소셜 미디어 부서장인 Scott Monty는 말했다. 비록 작년에 사용자의 수가 급격히 늘었지만 가장 큰 광고 시장인 미국에서 소셜 네트워크 산업의 이익은 겨우 4%가 증가해 12억불에 불과하다고 시장 조사기관 eMarketer는 밝혔다.

이것도 사실은 하나의 성과였다. 왜냐하면 온라인 광고 시장 전체가 2009년에 줄어들었기 때문이다. 작년 매출이 줄어들었다고 생각되는 마이 스페이스를 제외하고 상황은 좋아진 것으로 보인다. 또 올해 마이 스페이스가 그들의 사이트에서 검색 광고를 구글이 관리하도록 한 협정을 갱신할 때가 다가왔다는 것도 또 다른 안좋은 소식이다. 새로 합의에 다다른다 해도 이는 일정 트래픽에 다다르기만 하면 3년간 900만불을 제시했던 이전 것보다는 더 안 좋은 조건이 될 것이다.

넓은 시각에서 소셜 네트워크 사이트들은 더 희망적이다. 올해 eMarket는 마이 스페이스의 곤경에도 불구하고 산업 전체 매출이 7%이상 증가할 것으로 예상했다. 또 다른 시장 조사 기관 ComScore는 작년 6월 미국 웹 이용자들이 본 5개중 하나의 광고가 소셜 네트워크 사이트에서였고 마이 스페이스가 여전히 이 중 가장 큰 비중을 차지했다고 밝혔다. 작년 8월 영국에서의 또 다른 조사도 비슷한 결과를 냈고 통신사들과 소매상들이 광고주의 가장 큰 부분을 차지했다.

광고에 대한 클릭율이 이렇게 낮은데도 이러한 네트워크 사이트들은 점점 더 인기를 얻어 갈까? 그 이유 중 하나는 이러한 선도적인 사이트들의 순수한 규모에 끌리기 때문이다. 페이스북의 이용자는 세상의 어떤 TV 네트워크보다 많은 이용자를 보유하고 있다고 Interactive Advertising Bureau의 국장 Randall Rothenberg는 말했다. 또 다른 기업들이 매력을 느끼는 요소는 사용자의 나이, 성별, 흥미 관심분야 등 수집된 데이터 덕분에 아주 정밀하게 타겟 광고를 펼칠 수 있는 네트워크의 능력이다. 비록 아직도 자신의 브랜드가 자극적인 컨텐츠와 함께 노출될 위험이 있지만, 기업들은 현재 네트워크 사이트들이 차지하는 광고의 비중이 점점 더 늘어감에 따라 이러한 위험을 기꺼이 껴안을 것으로 보인다.

소셜 네트워크 사이트들에게 더 많은 돈이 몰리고 있는 또 다른 이유는 몇몇 광고주들이 그들의 투자에 대한 막대한 이익을 기대하고 있기 때문이다. 영화사인 소니 Pictures Entermainment의 사장 Michael Lynton은 소셜 네트워크 사이트를 광고에 이용하는 것에 대해 매우 비판적이었다고 말했다. 사실 Lynton은 그들의 컨텐츠에 대한 온라인 불법 복제에 대한 비판 차원의 인터넷으로는 어떤 도움이 될 만한 것도 얻을 수 없었다는 발언으로 유명하다.

하지만 소니는 그들이 지난 여름 진행한 온라인 실험으로 도움이 될 만한 것을 얻을 수 있었다. 소니는 전통적인 방식의 TV 캠페인을 방영한 이후에 그들의 3편의 영화에 대한 홍보를 페이스북에서의 시리즈 광고로 진행했다. 디스트릭트9은 젊은 남성을, Julie & Julia는 중년 여성을 The Ugly Truth는 더 어린 여성을 대상으로 했다. 영화에 대한 인지도 조사가 TV광고가 끝난 후, 또 웹 광고가 끝난 후 시행되었다. 각각에서 온라인 광고가 인지도를 크게 끌어 올리는 것으로 나타났다. Lynton은 이제 소셜 네트워크가 마케팅에 커다란 지형 변화를 가져오는 것을 확신했다고 말했다.

락, 베이비

이러한 확신을 가지게 된 또 다른 기업은 작년 마이 스페이스와 공동으로 밴드들이 그들의 음악 데모 테이프를 제출토록 한 “Rock the Space” 공모전을 개최한 도요타이다. 약 18,000개가 출품 되었으며 마이 스페이스 이용자를 대상으로 최우수 테이프를 뽑는 투표가 진행되었으며 해당 밴드와는 음반 계약을 하도록 되어 있었다. 도요타 미국 법인에서 해외 소셜 미디어 마케팅을 담당하고 있는 Doug Frisbie는 이 프로모션이 그들의 브랜드 홍보에 대한 기대를 수배나 훌쩍 넘었다고 말했다.

이 두 기업의 사례는 소셜 네트워크를 이용하는 사람들은 비평가들이 생각하는 것 이상으로 브랜드에 높은 관심을 가진다는 사실을 말해준다. Lynton은 또한 사람들이 그들이 깨달은 사실을 친구들 사이에서 서로 말해주는데 소셜 네트워크를 이용하기 때문에 강력한 구전 마케팅 효과를 낼 수 있을 것이라고 예상한다. 마케터들은 이러한 추천이 상품 구입 결정에 매우 중요한 역할을 한다는 사실을 오래 전부터 알고 있었다. 소셜 네트워크는 이러한 과정을, 예를 들어 어떤 곳의 상품이나 특정 브랜드를 선호하게 됐다는 사실을 자동적으로 친구들에게 전달하는 등의 방법을 써서, 촉진 시킬 수 있는 효과적인 기술이다.

커다란 의문점 하나는 이러한 모든 것들이 커다란 광고 수입으로 연결 될 수 있느냐는 것이다. 소셜 네트워크 들이 그들의 공로로 인정 받고 있는 것보다 더 큰 값어치가 있는지에 대해서는 커다란 논란이 있을 것이라고 comScore의 애널리스트 Andrew Lipsman은 말했다. 하지만 그는 광고 산업이 현재 일어나고 있는 변화를 느리게 인지할 수도 있다고 경고했다. 이러한 속도를 따라잡기 위해, 페이스북은 Nielsen과 브랜드에 대한 소셜 네트워크 광고의 영향을 측정하기 위한 일련의 벤치마크를 수행할 연합을 구성하였다. 페이스북의 최고 운영 책임자인 Sheryl Sandberg는 이것이 회사들이 그들의 광고 효과에 대한 피드백을 과거보다 빠르게 얻을 수 있게 해줄 것이라고 말했다.

페이스북은 또한 내장된 온라인 투표라던가, 댓글을 달 수 있는 비디오 같은 사람들을 끌어 모으기 위한 새로운 형식의 광고를 실험 중에 있다. 지금까지는 확 끌어당길 수 있는 형태로 나타나지는 않았지만, 단지 현재에 머물러 있는 것처럼 보이지는 않는다. 정확한 수치로 밝혀지지는 않았지만, 페이스북은 작년 매출이 최소 5억불, 그 이상으로 이는 2009년 중반 자금 흐름이 흑자로 돌아서는데 도움을 주었을 것이다. 세계 경제 불황과 끔찍한 광고 시장을 배경으로 이것은 큰 성과이다. 이는 또한 페이스북이 하나의 성공적인 광고 포맷보다는 다양한 형태의 광고를 통해 잘 해나갈 수 있다는 것을 시사한다. 하나의 어마어마한 성공이 있을 필요가 없다고 IAB의 Rothenberg는 말한다.

즐거움과 소득

오직 광고 하나에 의지한 비지니스 모델일 필요도 없다. 일본의 GREE나, 커다란 소셜 네 트워크가 포함된 QQ를 가지고 있는 중국의 Tencent 등 아시아의 여러 기업들은 벌써 흡족한 수준의 이익을 게임이나 가상의 상품을 판매해서 올리고 있다. 2008년, 홍콩 증권 거래소에 상장되어있는 Tencent는 10억불이 넘는 그들의 매출 중 7.2억불이 온라인 게임이나 가상의 검, 상품 같은 아이템 판매를 통해 벌었다. 한국의 싸이월드, 일본의 믹시 같은 아시아의 많은 네트워크 사이트들도 이용자들에게 자신만의 배경이나 다른 자신의 네트워크 페이지를 꾸미기 위한 용품 판매로 많은 돈을 벌었다.

이에 고무되어 다른 기업들도 아시아의 모델에 있는 요소들을 포함 시키고 있다. 전세계적으로 6천만명의 가입자를 가진 미국의 Hi5는 다양한 게임을 그들의 플랫폼에 런칭 시키고 이들 게임에서 사용할 수 있는 Hi5 코인이라 불리는 그들만의 가상 화폐를 만들었다. 이 회사의 최고 기술 책임자인 Alex St John는 이용자들 사이에 사용되는 화폐 등의 스폰서로 나서도록 기업을 설득하는 등, 게임과 광고가 쉽게 융합될 수 있다고 말한다.

Ning은 게임보다는 선물에 초점을 맞추고 있다. 10월 그들은 사람들이 그들만의 네트워크를 시스템 상에서 구축하고 자신만의 디지털 아이템을 다른 사용자들에게 팔 수 있는 새로운 서비스를 런칭했다. 아이템의 가격은 50센트부터 10달러까지로, 40만개 이상이 매월 팔리고 있으며 이 이익을 동등하게 Ning과 고객이 분배한다. 이는 네트워크 관리 요금과 광고 판매 수익으로 벌어들인 매출에 추가될 것이다. 광고에 초점을 맞추고 있는 페이스북 조차 가상의 생일 케잌, 샴페인 병과 다른 상품 창고를 가지고 있다.

소셜 네트워크 사이트에서 이런 사업의 아름다움은 가상의 창고를 제작하고 저장하는데 비용이 얼마 들지 않는 다는 것이다. 게다가, 폐쇄된 시장이기 때문에, 높은 마진을 올릴 수 있는 선에서 가격을 고정 시킬 수 있다는 점이다. 어느 정도는 가상의 아이템들을 팔아서 큰 돈을 벌 수 있다는 개념이 기이해 보일 수도 있다. 하지만 이러한 행동은 실 세계에서 사람들간의 관계를 돈독하게 하기 위해 물리적인 선물을 주고 받는 것을 그대로 답습한다. 비록 아시아가 디지털 장신구들을 파는 훨씬 더 큰 최대의 시장으로 남아있지만, 연구기관 Inside Network는 미국의 다양한 웹 사이트에서의 가상 물건의 판매가 작년 10억불에 달했고 2010년에는 16억불까지 성장할 것이라고 예측했다.

수수하게 아니면 화려하게?

또 다른 수익성이 좋은 비지니스 모델 중 하나는 이용자에게 프리미엄 서비스에 대한 요금을 부과하는 것이다. 이러한 방법이 가장 적합한 것은 비지니스 대상의 네트워크이다. 예를 들어, LinkedIn은 기본적인 무료 서비스를 제공하지만, 사용자에게 최대 500달러의 월 가입 요금을 지불할지 물어본 후 추가적으로 다수의 소개 이메일을 사이트의 다른 이용자들에게 보내는 등의 서비스를 제공한다. 일년에 1억불 이상의 매출을 올리는 것으로 알려진 이 기업은 기업들에게 원하는 이력을 찾아 낼 수 있도록 돕는 온라인 도구를 제공하는데 요금을 부과하여 돈을 벌기도 한다. 이러한 “freemium” 모델과 부유한 고객까지 전달되기를 원하는 거대 브랜드들의 충분한 양의 광고가 결합되어 LinkedIn으로 하여금 몇 년 동안의 운영 이익을 벌게 해줬다.

소셜 네트워크들은 또한 검색 엔진들의 더 많은 컨텐츠를 확보하기를 원하는 욕구를 이용해 이득을 챙겨왔다. 트위터는 구글과 마이크로소프트의 검색 서비스 Bing의 검색 결과에 트위터의 데이터베이스를 포함시키도록 허용하는 돈이 되는 계약을 10월 체결했다.

올해 그들은 두 가지 방법으로 더 많은 돈을 벌 계획을 세우고 있다. 첫 번째는 트위터 상에서의 토론을 분석하는 도구 등의 서비스를 기업들에게 제공하고 요금을 부과하는 것이고, 또 사람들이 그들이 받는 트윗이 실제 기업이라는 것을 알게 해주는 인증된 계정을 통해서 이다. 그들은 또한 구글이 하는 것과 마찬가지의 맞춤형 광고를 시작해 돈을 벌기를 원한다. 트위터의 공동 설립자중 하나인 Biz Stone은 트위터의 팬들은 이미 다른 사람들로부터 정보를 얻는데 이 서비스(트위터)를 이용하고 있기 때문에 이를 기꺼이 받아들일 것이라고 예상했다. 사람들은 일상적으로 상업적인 사이트의 링크를 나누고 있으며 작년의 한 조사에 따르면 사람들은 그들의 트윗 중 20%에서 특정 브랜드나 제품을 언급한다. 이것이 왜 트위터나 다른 소셜 네트워크가 수 백 만개의 소규모 비지니스 뿐 아니라 수 천 개의 커다란 비지니스의 눈길을 끄는 이유이다.