Google – Page 2 – Book of Ryu's past and future in another universe, Chapter 4.

[Economist] Computer Passwords (컴퓨터 암호)

Computer passwords

컴퓨터 패스워드는 기억하기 쉽고 안전해야 한다.
많은 사람들은 기억하지는 쉽지만 안전하지 않은 암호를 이용한다.
연구원들은 양쪽 모두를 이루면서도 쉽게 이를 만들어 낼 수 있도록 노력하고 있다.

Mar 24th 2012 | from the print edition

암호는 컴퓨터 보안 어디에나 존재한다. 이들은 대부분 별로 효과가 없기도 하다. 좋은 암호는 기억하기 쉽고, 또 추측하기 어려워야 한다. 하지만 현실의 사람들은 전자에만 압도적으로 기울어 있는 것으로 보인다. 아내와 남편과 아이들의 이름이 암호로써 인기 있다. 몇몇은 극단적인 단순함을 추구한다. 이코노미스트의 한 전직 부 편집장은 암호로 “z”를 몇 년 동안 사용했다. 또한 해커들이 RockYou라는 소셜 게임 웹사이트에서 3천 2백만 개의 암호를 훔쳐냈을 때, 365,000명이나 되는 1.1%의 웹사이트 이용자들이 “123456” 또는 “12345”라는 암호를 사용했다.

이러한 예측 가능성 덕분에 보안 연구자들이 (그리고 해커들) 침입자들에게는 은혜와도 같은 일반적인 암호 리스트 사전을 만들 수 있었다. 하지만 또한 연구자들은 암호가 안전하지 않다는 것을 알아도, 어떻게 안전하지 않다는 것인지 밝혀내는 것은 어려운 일이었다. 많은 연구들은 다룰 수 있는 샘플이 오직 몇 천 정도에 불과했다. RockYou와 같은 해킹 된 웹사이트들은 더 많은 암호들을 제공해주었지만 해킹된 정보를 이용한다는 윤리적인 문제가 있었고, 이용 가능할지 예측 불가능했다.

하지만 5월 뉴욕의 전문 기관, Institute of Electrical and Electronics의 도움 하에 한 보안 컨퍼런스에서 소개된 논문에서 실마리를 보였다. 거대 인터넷 기업 Yahoo! 와의 협력으로 캠브리지 대학의 Joseph Bonneau는 7천만 개나 되는 지금까지 가장 큰 규모의 샘플과 함께 익명의 암호 주인에 대한 유용한 인구학적 데이터를 얻었다.

Bonneau는 흥미로운 차이들을 찾아냈다. 나이든 사람들은 젊은 사람보다 더 나은 암호를 사용한다. (기술에 빠삭한 젊은이들은 차지하고) 한국어나 독일어를 말하는 사람들이 가장 안전한 암호를 사용한다. 그 반대는 인도네시아 어를 쓰는 사람들이다. 신용카드 정보와 같은 민감한 정보를 위해 만든 암호는 게임 로그인과 같은 덜 중요한 곳에 쓰이는 암호보다 아주 조금 더 안전할 뿐이다. 사용자가 취약한 암호를 이용하고 있다는 “경고 화면”은 사실상 별로 쓸모가 없다. 또한 과거에 해킹된 경험이 있는 사용자라도 해킹된 경험이 없는 사용자에 비해 훨씬 더 강력한 암호를 사용하지도 않는다.

하지만 이런 샘플에 대한 폭 넓은 분석은 보안 연구자들에게는 가장 큰 관심 대상이다. 편차가 있지만, 일반적인 암호 사전은 전체 샘플 이나 혹은 어떤 인구학적으로 추출된 데이터에 대해서도 효과가 있어 7천만 이용자들에 대한 암호는 충분히 예측 가능했다. Bonneau는 직설적으로 “계정 당 10개의 추측을 할 수 있는 공격자라면 약 1% 계정에 대한 암호를 알아낼 수 있다.”라고 말했다. 그리고 이것은 해커의 관점에서는 시도해 볼만한 결과이다.

확실한 해결 방법 하나는 현금 입출금기가 그러하듯 사이트 들에서 계정이 차단되기 전에 할 수 있는 추측 입력의 수를 제한하는 것이다. 비록 거대 사이트인 구글이나 마이크로소프트 등에서 이러한 방법을 이용하고 있지만 (혹은 더 강력한), 상당수가 그렇지 못하다. 2010년, Bonneau와 그의 동료 Soren Preibusch가 150개의 샘플 거대 웹사이트를 조사한 결과 126개가 이러한 추측 제한을 이용하지 않고 있었다.

어떻게 이런 상황이 될 수 있는지 이해하기 어렵다. 몇몇 사이트에서는 이러한 느슨함이 합리적일 수도 있다. 왜냐하면 이 암호가 신용카드 정보와 같은 특별히 가치 있는 것을 보호하고 있지 않기 때문이다. 하지만, 허술한 암호 관리는 사람들이 많은 경우 같은 암호를 다른 여러 곳에서도 이용하고 있기 때문에 보안이 좋은 사이트에도 위협이 될 수 있다.

하나의 해석은 느슨한 암호 보안이 인터넷의 순진한 어린 시절의 문화적인 유물이라는 것이다. 학술적인 연구 네트워크였던 인터넷이 해커를 염려할 이유는 별로 없었다. 또 하나의 가능성은 많은 웹 사이트들이 재정난에 처한 스타트업으로부터 출발했기 때문에 별도의 암호 보안을 구현하는데 가치 있는 프로그래밍 시간을 투자 해야 하고, 따라서 초기 단계에서는 이를 생략한 후 더 이상 변경하려 신경 쓰지 않았다는 것이다. 하지만 이유야 어찌되었든, 웹 사이트를 서둘러 만들고자 했던 사람들이 전통적인 암호의 대안을 고려하여 함께 행동에 나서는 것이 맞다.

Skysail dactyl gimcrack golem

이러한 것의 하나가 Passpharases라 불리는 복수 단어 암호이다. 하나의 단어 대신에 여러 개를 이용하는 것은 공격자가 더 많은 글자를 추측하게 하고 결과적으로 더 안전하다. 하지만 선택된 구가 친숙한 용법으로 사전에 나타나지 않은 것이라야 한다.

Monneau와 그의 동료 Ekaterina Shutova는 2009년 10월부터 2012년 2월까지 미국 이용자들에게 복수 단어 암호를 이용하도록 허용한 온라인 리테일러 아마존의 실제 passphrase 시스템을 분석해왔다. 비록 암호보다 passpharase가 더 나은 보안을 제공하지만, 꿈꿔왔던 만큼은 아니었다는 사실을 알아냈다. 4개에서 5개의 임의로 선택된 단어로 이루어진 구는 상당히 안전하다. (예를 들어 위의 헤드라인 처럼) 하지만 이러한 구들을 기억하는 것은 몇몇의 임의로 선택된 암호를 기억하는 것보다 결코 쉽지 않다. 다시 한번, 기억해야 할 필요성은 공격자들에게는 은혜다. 영화 제목이나, 스포츠 용어나 비속어와 같은 이런저런 리스트들을 위해 인터넷을 스크랩한 결과, Bonneau와 Shutova는 20,656의 단어 사전을 만들 수 있었고, 이는 아마존 데이터베이스에 있는 계정 중 1.13%를 뚫을 수 있었다.

그 둘은 또한 이러한 인기 있는 구를 선택하지 않는 사람일지라도 완전한 임의가 아닌 자연언어에 나타나는 패턴들을 선호한다고 의심했다. 따라서 그들은 그들의 passphrase 모음을 British National Corpus(옥스포드 대학 출판사에서 관리하는 영어의 1억 개 단어 샘플) 에서 임의로 뽑아낸 2개의 단어로 이루어진 구와 비교했다. 또한 Google NGram Corpus(구글의 웹 크롤러에 의해 인터넷에서 뽑아낸 것)와도 비교했다. 확실했다. 그들은 일반적인 영어에서 흔한 구조들과 아마존의 이용자들이 선택한 구 간의 상당한 유사성을 발견했다. 그들이 시도한 것 중 13%의 형용사-명사 조합 (“beautiful woman”)과 5%의 부사-동사 조합(“probably keep”)이 적중했다.

이를 해결하는 한 방법은 암호와 passphrase의 아이디어들을 섞은 기억술 암호라는 것이다. 이것은 의미 없는 것으로 보이는 문자열로 기억하기 그리 어렵지 않다. 예를 들어, 구에 속한 각 단어의 첫 번째 글자만을 이용해, 대문자와 소문자를 다양하게 하고, “B”를 “8”로 바꾸는 식으로 어떤 글자를 대체한다. (따라서 “itaMc0Ttit8”은 이 괄호 안 문장의 연상 기호 축약 텍스트 이다.) 비록 기억술 암호라고 할지라도 완벽하지는 않다. 2006년에 발표된 한 연구에서는 가사나 영화 제목 같은 것들에 기반한 사전에서의 샘플 기억술 암호 중 4%가 뚫렸다.

결론은 아마 명확한 답이 없다는 사실이다. 모든 보안은 신경질 나게 한다. (자주 비행기를 타는 사람 누구에게나 물어봐라) 또한 사람들이 안전하기를 바라는 욕구와 간단해지기를 바라는 욕구 사이의 긴장이 항상 있을 것이라는 점이다. 이 긴장이 계속되는 한, 해커들은 항상 침입할 수 있을 것이다.

[Economist] 건초더미 속의 바늘 (Needle in a haystack)

건초더미 속의 바늘

정보에 대한 정보의 이용

데이터가 더욱 풍부해짐에 따라, 가장 큰 문제는 흔히들 말하는 데이터를 찾는 것이 아니라 적절한 정보를 쉽고 빠르게 제공하는데 있다. 이럴 때 필요한 것이 정보에 대한 정보이다. 도서관의 사서들과 컴퓨터 과학자들은 이를 “메타데이터”라 부른다.

정보 관리는 오랜 역사를 가진다. 3천 여 년 전의 아시리아에서는 석판에 부착된 작은 찰흙 조각들이 바구니에 담겨있거나, 선반에 쌓여 있을 때 그들을 구분하기 쉽게 만들었다. 이러한 생각은 20세기까지 작은 분류 카드 형태로 살아남았고 사서들은 이를 컴퓨터가 이용되기 전까지, 책의 제목이나 저자, 주제 등을 적어 놓는데 사용하였다. 책 자체가 데이터를 구성하고 이러한 분류 카드는 메타데이터로 볼 수 있다. 또 다른 예는 포장 레이블에 포함되어 전 세계적으로 하루에 5백만 건의 스캔이 이루어는 바코드이다.

최근 메타데이터는 사실상의 전성기를 맞고 있다. 인터넷에 있는 풍부한 정보들은 유용하게 활용되기 위해서 조직화 되어야 한다. 이것이 바로 구글의 특기이다. 그들의 검색 엔진을 위한 원자재는 공짜로 구할 수 있다. 바로 공개된 인터넷 상의 웹 페이지들이다. 그들이 가치를 추가하는 (메타데이터를 생성하고) 것은 이 정보를 조직화하고, 관련이 있는 질의에 랭킹을 매기는 행위를 통해서이다.

세계의 인터넷 검색 중 절반 가량이 구글을 통해서 이루어지며 그들은 매초당 35,000건의 질의에 답을 하고 있다. 메타데이터는 잠재적으로 수익성이 좋은 사업이다. “만약 정보를 얻을 수 있는 경로와 방법을 통제할 수 있다면, (이를 이용하는) 그 다음 단계의 생산자들에게 일정 비용을 청구할 수 있을 것입니다.” Columbia 비즈니스 스쿨의 통신 경제학자 Eli Noam은 설명했다. 하지만 더 호혜적인 사용 방법 역시 존재한다. 예를 들어, 웹사이트 Flickr에 업로드 되는 사진들에는 언제, 어디서 찍힌 것인지 뿐 아니라 잠재적 구매자들에게 유용한 카메라 모델 같은 정보가 메타데이터로 포함되어있다.

인터넷 이용자들은 조직화 되어있지 않은 정보에 라벨을 붙여 태그가 달린 사진이나 비디오처럼 쉽게 찾아질 수 있도록 돕는다. 하지만 그들은 전통적인 도서 분류법을 무시한다. 대신, 그들은 그들이 원하는 어떤 단어라도 붙여 전자 “Folksonomy” (역:다수의 유저들의 동시 노력에 의해 구축된 분류법)를 만든다. 따라서 버락 오바마의 사진에 “대통령”이라고 라벨을 붙이는 것 대신에 그들은 이 사진을 두고 “섹시” 혹은 “개자식”이라고 부를 수 있다. 혼란스러워 보이지만, 꼭 그렇지도 않다.

정보가 종이나, 필름과 같은 실재하는 매체에 기록되던 때에는 모든 것들이 오직 하나의 위치에 존재하였다. 디지털 정보는 동시에 여러 곳에서 같은 아이템이 저장 될 수 있다고 분류학과 인터넷에 관한 책의 저자 David Weinberger는 적고 있다. “모든 것이 다양성을 가집니다.” 디지털 메타데이터는 사물을 복잡하게도 만들고 동시에 간단하게도 만든다.

[Economist] 금을 위한 클릭 (Clicking for gold)

금을 위한 클릭

Feb 25th 2010 |
From The Economist print edition

인터넷 기업들은 웹의 데이터를 통해 어떻게 돈을 버는가?

잠깐! Amazon.com은 그들이 당신에 대해서 무엇을 알고 있는지 들키지 않기를 바란다. 그들은 당신이 구입한 책의 목록 뿐 아니라, 뒤적거렸으나 구입하지 않은 책을 기록하고 있으며 이를 이용해 다른 책을 추천하기도 한다. 그들의 e-book인 킨들로부터 수집한 정보는 한층 다양하다. 사용자가 각 페이지를 읽는데 얼마나 걸리는지, 별도의 노트를 하는지 등등. 하지만 아마존은 어떤 데이터들을 수집하고 그들을 어떻게 이용하는지 밝히기를 거부한다.

이뿐 아니다. 인터넷 산업 전체에 걸쳐 기업들은 사람들의 활동, 선호, 혐오, 다른 사람과의 관계, 어느 순간에 어느 위치에 있었는지 등에 대한 대량의 정보를 수집하면서도 침묵을 지키고 있다. 예를 들어 소셜 네트워킹 사이트 페이스북은 그들의 4억 이용자들의 활동을 기록하고, 이 중 절반은 매일 이 사이트에서 한 시간 가량을 보내지만 그들이 무엇을 수집하는지에 대해서는 침묵을 지키고 있다. 구글은 약간의 내용을 공개했지만, 나머지 대부분은 숨기고 있다. 온라인 경매 사이트 eBay 조차 침묵을 지킨다.

“그들은 이것이 이슈화 되는 것이 편치 않습니다. 왜냐하면 이것이 그들이 가지고 있는 경쟁력의 핵심이기 때문입니다.” 기술 전문가이자 발행인인 Tim O’Reilly는 말했다. “데이터는 법정 화폐와 같습니다. 이를 가지지 못한 다른 기업과 큰 격차를 벌릴 수 있게 해줍니다.” 웹에서 가장 큰 사이트 중 하나의 홍보 책임자는 “우리는 이 문제에 대해 심도 있게 논의할 위치에 있지 않습니다. 그것은 사생활 같은 민감한 고려 사항과는 별로 관계가 없습니다. 대신, 우리는 단지 우리의 전략을 드러내 놓을 준비가 되어 있지 않은 것입니다.” 라고 인정했다. 다시 말해, 기업은 소중한 업계의 비밀에 대해서 밝히고 싶지 않은 것이다.

이러한 침묵은 부분적으로 고객의 우려할 경우, 혹은 정부가 반갑지 않은 관심을 가질 경우에 대한 기업들의 염려를 반영한다. 하지만 이는 두 가지 이유에서 너무 근시안적이다. 첫째로, 정치가들과 대중은 이미 불안해하고 있다. 미 연방 무역 위원회의 회장 Jon Leibowitz는 산업 전체가 적극적으로 해결에 나서고 있지 않다고 공개적으로 비판했다. 둘째로, 만약 이용자가 어떻게 데이터가 이용되는지 안다면, 아마도 염려하기 보다는 인상 깊어 할 것이다.

전통적인 산업에서는 고객에 대한 정보를 그들의 구매나 설문조사에 의해 얻는 것이 일반적이었지만, 인터넷 기업들은 그들의 웹 사이트에서 일어나고 있는 모든 일로부터 데이터를 수집할 수 있는 풍요로움을 누리고 있다. 거대한 웹 사이트들은 정보 그 자체가 그들의 가장 큰 보물이라는 것을 오래 전부터 인식하고 있었다. 그리고 이러한 정보는 전통적인 기업들이 도저히 대적할 수 없는 방식으로 바로 사용될 수 있다.

이러한 기술 중 몇몇은 널리 이용되고 있다. 새로운 기능을 실제 구현하기 전에, 거대 사이트들은 어떤 것이 가장 잘 동작하는 지에 대한 통제된 실험을 진행한다. 영화를 대여해 볼 수 있게 제공하는 Amazon과 Netflix은 다른 사용자들이 무엇을 좋아하는 지에 기반하여 사용자들에게 영화를 추천하는 협업적 필터링이라 불리는 통계적 기법을 사용한다. 그들이 사용하는 기술로 인해 수백만 달러의 추가 매출이 일어났다. 거의 3분의 2에 해당하는 소비자의 선택이 컴퓨터에 의한 소개를 통해 이루어졌다.

첫 눈에 보기에는 중립적인 상업 거래를 위한 플랫폼 이상이 아닐 것 같은 eBay도 물건을 내놓는 행동, 입찰, 가격 동향, 검색어, 사용자가 한 페이지를 보는 시간 등 수집한 정보들을 통해 수없이 많은 조정을 한다. 모든 제품 분류는 능동적으로 관리되는 하나의 미시 경제처럼 다루어진다. 많이 검색되지만 잘 팔리지는 않는 고가의 상품은 충족되지 않은 요구를 나타내고, 따라서 eBay는 상품 게시를 늘리기 위해 판매자 보험을 제공할 파트너를 찾는다.

가지고 있는 데이터로부터 가장 많은 것을 얻어내는 기업은 구글이다. 상상할 수 없을 만큼 많은 양의 정보로부터 새로운 경제적 가치를 만들어 내는 것은 그들의 생명선이다. 이는 설립 11년이 지난 기업의 시가 총액이 조사 결과 1700억불에 달하는 것이 이상하게 느껴지지 않는 이유를 말해준다. 구글은 사용자와의 인터렉션이나, 자동적으로 서비스를 향상 시키거나 완전히 새로운 제품을 만들기 위해 재활용되는 data exhaust의 부산물인 정보를 활용하고 있다.

마우스를 통한 투표

구글의 창업자 중 한명인 Larry Page가 검색을 위한 페이지 랭크 알고리즘을 고안한 1998년까지 검색 엔진들은 구현 자체가 널리 공개된 시스템인 한 웹 페이지 상에서 한 단어가 몇 번이나 나타나는 지를 계산하는 방법으로 단어와 웹 페이지의 관계성을 결정했다. 구글의 혁신은 다른 페이지로부터 현재 페이지로 향하는 링크의 개수를 세는 것이다. 이러한 링크는 인터넷 사용자가 대체적으로 중요한 자료라고 믿는 것에 대한 투표 역할을 했다. 많은 인용이 책의 우수성을 말해주는 것처럼, 많은 링크는 그 웹 페이지가 더 유용하다는 것을 뜻한다.

구글의 시스템은 하나의 발전이었지만, 이를 속이기 위해 만들어진 “링크 스팸”의 남용에 취약했다. 구글의 기술자들은 실제 사용자가 클릭하거나 머물게 될 검색 결과로 노출 되었을 때 별점을 매기는 것이 해결책이라는 것을 깨달았다. 구글 검색은 1/4초 만에 2백만 개의 결과 페이지를 내놓지만, 사용자들은 오직 하나의 페이지만을 원하고 이를 선택함으로써 구글에게 그들이 무엇을 찾고 있었는지를 말해준다. 따라서 이 알고리즘은 서비스에 피드백된 정보를 통해 자동으로 재조정된다.

이를 통해 구글은 이것이 데이터 마이닝에 관련된 것이라는 사실을 깨달았다. 이 모델은 간단한 경제 용어로 바꾸어보면, 검색 결과를 통해 $1의 가치를 제공한다 하면, (이용자의 클릭 덕택에) 다시 1센트를 되돌려 받는 것이다. 다음 이용자가 방문했을 때, 그는 $1.01의 가치를 얻게 되고 이것이 반복된다. 한 직원은 이를 “우리는 거대하고 ‘산만한’ 데이터들을 통해 배우는 것을 좋아합니다.”라고 말했다.

커다란 데이터의 뒤에서 발전을 이루어내고 있는 것은 구글 만이 아니고, 또 새로운 기술도 아니다. 가장 눈에 띄는 예는 미 해군의 Matthew Fontaine Maury가 태평양을 건너는 선박들로부터 항해 일지를 수합하여 바람과 해류가 가장 적합한 경로를 찾을 수 있을 것이라고 생각했던 19세기 중반으로 거슬러 올라간다. 그는 그의 지도 사본을 항해 일지를 제공한 선장에게 제공해서 “전염적인” 소셜 네트워크의 색다른 초기 형태를 만들었다. 하지만 이 과정은 느렸고, 수고스러운 일이었다.

마법 스펠링

구글은 이러한 데이터들로부터 재귀적으로 학습하는 방법을 그들의 많은 서비스에도 적용하고 있고, 거의 모든 언어에서 아마 세계 최고의 맞춤법 검사기를 만들어낸 선구적인 방법에도 이것이 사용되고 있다. 마이크로소프트는 그들이 지난 20년 동안 그들의 워드프로세서를 위한 강력한 맞춤법 검사기능을 만드는데 수백만 달러를 썼다고 말한다. 하지만 구글은 이 기능을 위한 원료를 공짜로 얻었다. 그들의 프로그램은 사용자들이 검색 창에 타이핑한 잘못된 단어들과 올바른 결과를 클릭한 “교정”에 기초한다. 하루에 거의 30억에 달하는 검색 건으로 이러한 결과는 곧 산더미처럼 쌓인다. 1990년대의 다른 검색 엔진들도 같은 것을 할 수 있는 기회가 있었지만 실제 실행에 옮기지는 않았다. 2000년 경에 야후가 이의 잠재력을 보았지만, 실천에 옮기지는 않았다. 사용자와 상호작용의 쓰레기 더미에서 금가루를 발견하고 이 모두를 수집하는 수고를 떠맡은 것은 구글이었다.

최근 구글의 2가지 서비스인 번역과 음성인식도 같은 방식이다. 양쪽 모두 인공 지능 분야의 컴퓨터 과학자들에게는 커다란 장애물이었다. 40년이 넘는 기간 동안 과학자들은 언어의 음성과 구조를 이해하는 컴퓨터를 만들기 위해 노력해왔다. 이는 올바른 시제 등을 가지는 한 문장에서 어디에 명사와 동사가 위치하는지 등의 규칙을 정의하는 것을 의미한다. 규칙에 어긋나는 모든 예외들 역시 입력되어야 했다. 이와는 반대로 구글은, 이를 많은 데이터와 연산 능력만 있으면 풀 수 있는 커다란 수학 문제로 보았고, 실제 유용한 해결책을 찾아내었다.

번역을 위해서 구글은 그들의 다른 서비스들을 이용 할 수 있었다. 그들의 검색 시스템은 20여 개 국의 언어로 번역된 유럽 연합 집행 기관의 문서들을 찾아 낼 수 있다. 그들의 책을 스캐닝 하는 프로젝트는 다른 여러가지 언어로 번역된 수천개의 책 제목들을 가지고 있다. 이러한 모든 번역의 질은 표준을 준수하기 위해 전문가들에 의해 이루어져서 아주 좋은 상태이다. 따라서 컴퓨터에게 언어의 규칙을 가르치려 노력하는 대신에, 구글은 통계적 추론을 만들기 위해 텍스트 그 자체에 집중했다. 구글의 엔지니어인 Frans Och에 따르면 구글 번역기는 현재 50개 이상의 언어를 처리할 수 있다. 이 시스템은 한 언어의 단어나 구를 가지고 다른 언어에서의 가장 비슷한 동등어를 찾아낼 수 있다. 만약 직접 번역이 힘든 경우 (예를 들어, 힌두어와 카탈로니아어), 영어가 중간 다리 역할을 한다.

구글이 이러한 방법을 처음 사용한 것은 아니다. 1990년대 초반 IBM은 캐나다의 국회에서의 번역을 이용하여 프랑스어-영어 번역프로그램을 만드려 시도한 적이 있다. 하지만 제대로 동작하지 않았고, 이 프로젝트는 폐기 되었다. IBM은 오직 폐기 처분된 수백 만개의 문서를 가지고 있었다고 Och는 무시하듯이 말했다. 구글은 수십 억개를 가지고 있다. 구글의 시스템은 초기에 약 2조개의 단어를 처리하여 개발되었다. 엄청난 양의 데이터로 학습되었지만, 이는 맞춤법 검사와 검색의 재귀적인 특성이 부족했다.

이러한 피드백 루프의 디자인은 중요하다. 구글은 사용자들에게 그들의 의견을 묻지만 그 이상은 없다. 독일에서 개발된 Linguee라는 번역기는 조금 다른 방법을 시도한다. 사용자에게 가능한 번역의 샘플들을 제시하고 가장 적당한 것을 클릭하도록 한다. 이는 어떤 것이 가장 정확했는지에 대한 피드백이 될 수 있다.

음성 인식은 Data exhaust 이용의 중요성을 강조한다. 구글의 전화번호부나, 음성 자동차 내비게이션 서비스를 이용하기 위해서 고객은 특정 번호로 전화를 걸어 그들이 찾고 있는 것 (역: 목적지, 혹은 사람이름)이 무엇인지 말해야 한다. 시스템이 이를 재차 확인하여 말해주고, 사용자가 그것을 받아들이거나 다시 질의가 반복되면 시스템은 해당 단어가 말해질 수 있는 다양한 방법들에 대한 레코드를 남긴다. 그들은 목소리를 이해하는 것이 아니다. 확률을 계산한다.

이러한 서비스를 런칭하기 위해서 구글은 완성되어있는 음성 인식 시스템이 필요했고, 이 분야의 대표 기업인 Nuance로부터 소프트웨어 라이센스를 취득했었다. 하지만 구글 자신이 음성 질의에 대한 데이터를 가지고 있으므로, 그들의 음성 인식 시스템은 결국 현재 관련있는 모든 업체와의 제휴로 많은 데이터들에 대한 접근 권한을 얻으려 노력 중인 Nuance보다 좋은 성능을 낼 것이다.

데이터의 재이용은 어떻게 연산이 이루어지는 지에 대한 새로운 모델을 제시한다고 프린스턴 대학의 Edward Felten은 말한다. “커다란 데이터 집합들을 보고 어떤 일들이 함께 일어나고 있는지를 추론하는 것은 기대했던 것보다 훨씬 빠르게 발전하고 있습니다. ‘이해’는 과대 평가된 것으로 밝혀지고 있고 통계적인 분석이 이를 대체하고 있습니다.” 많은 인터넷 기업들도 이제 이러한 시각을 가지고 있다. 페이스북은 사용을 촉진시키기 위해서 그들의 엄청난 양의 데이터베이스를 정기적으로 검사하고 있다. 이용자가 그 사이트의 활성화에 기여할지 여부를 예측하는 가장 좋은 변수는 이용자의 친구들이 활동적이었는지 보는 것이라는 것을 찾아냈고, 따라서 가입자들에게 그들의 친구들이 온라인 상에서 푹 빠져 있었던 것에 대한 정보를 보내주었다. 온라인 게임 회사인 Zynga는 그들의 게임을 발전시키기 위해서 1억 명의 고유 플레이어를 매달 추적한다.

“만약 이용자가 생성하는 생성 데이터를 손에 넣을 수 있으면, 우리들은 단지 알고리즘을 개선 시키는 것보다 훨씬 좋은 시스템을 개발 할 수 있을 것입니다.” 과거 아마존의 최고 과학자였고, 지금은 스탠포드 대학에 있는 Andreas Weigend는 말했다. 많은 기업에서 이사로 재직 중인 벤처 투자자이자, 웹의 첫 번째 상업용 브라우저였던 Netscape의 창업자인 Marc Andreessen은 “이러한 새로운 기업들은 커다란 양의 데이터를 다룰 수 있는 문화, 프로세스, 기술을 만들어 왔고 이는 전통적인 기업들이 간단히 가질 수 없는 것이다.” 라고 생각한다.

Data exhaust의 재활용은 구글 제국에서 진행 중인 수많은 프로젝트들의 공통 주제이자, 왜 그들 대부분이 “베타” 혹은 초기 테스트 버전 이라는 딱지를 붙이고 있는지 설명해준다. 그들은 정말로 끊임없는 개발이 진행 중인 것이다. 구글 이용자로 하여금 의료 기록을 저장할 수 있게 해주는 서비스는 구글에게 질병과 치료에 대한 유용한 패턴을 찾아낼 수 있게 할 것이다. 이용자들이 그들의 장치 각각의 전기 소비량을 감시할 수 있게 해주는 서비스는 에너지 소비에 대한 풍부한 정보를 제공할 것이다. 이는 세계 최고의 가전제품과 전자기기들에 대한 데이터 베이스가 될 것이고 이를 통해 고장을 예측할 수도 있을 것이다. 구글이 무료로 공개하고 있는 수집된 검색 질의들을 이용하면 소매 매출부터 플루의 창궐까지 모든 것들을 높은 정확성으로 예측할 수 있을 것이다.

통틀어, 이 모든 것들은 구글의 원대한 목표 “세계의 정보를 조직화”와 일맥상통한다. 아직은 단어를 신중하게 써야 한다. 구글은 데이터를 소유할 필요가 없다. 일반적으로 구글이 원하는 것은 데이터에 접근할 권리를 가지는 것이다. (그리고 그의 라이벌들은 그럴 수 없는 상황이다) 작년 9월 조용히 시작된 “데이터 해방 운동”이라 불리는 새로운 시도에서 구글은 그들의 모든 서비스를 변경하여 사용자들이 서비스들을 쉽게 중단하고, 그들의 데이터를 회수할 수 있도록 계획 중이다. 고객을 묶어 두는 것 에서 쌓아 올려진 산업에서, 구글은 “탈출을 위한 장벽”을 줄이기를 바란다고 말하고 있다. 이는 기술자들이 많은 최고 기술 기업의 저주인 ‘현재 상태에 안주’하지 않도록 도울 수 있을 것이다. 이 프로젝트는 이로 인해 사업 상 손실이 발생하기 시작하면 중단 될 수도 있다. 하지만 구글은 아마 사용자들이 자신들의 정보를 쉽게 거두어들일 수 있다는 사실을 알면 더 많은 정보를 구글과 나누고 싶어 할 것이라고 예상한다.

[Economist] A World of Connections : a special report on social networking

본 내용은 Economist의 1월 Special Report인 A World of Connections 중 Profiting from friendship 부분을 번역한 것임

Friendship을 통해 돈을 벌기

소셜 네트워크에는 비판하는 사람들이 생각하는 것보다 더 많은 돈을 벌 기회가 있다.

실리콘밸리의 기업가들은 절반은 농담조로 URL 전략이라고들 부른다. 이 3글자는 보통 인터넷을 통해 접근이 가능한 고유의 파일을 나타내는 Uniform Resource Locator를 지칭한다. 하지만 인터넷의 신생 기업들 사이에서 URL은 다른 뜻을 가진다. Ubiquity first, Revenue Later. 일단 널리 퍼뜨리고, 나중에 수익을 거둔다. 이는 지난 몇 년 동안 이익을 낼 걱정은 하지 않고 사용자들을 끌어 모으는데 집중한 대부분의 거대한 온라인 소셜 네트워크들의 전략 중 상당히 많은 부분을 설명한다. 이러한 전략 덕택에 많은 사용자들을 확보하는데 성공했지만 그 끌어 모은 이용자들로부터 어떻게 수익을 낼지에 대한 커다란 의문을 남겨놓았다.

구글이 그들이 제공하는 검색 결과와 나란히 의도된 광고를 보여주며 수십억 달러를 벌어들일 수 있었던 것과 같은 방법으로 소셜 네트워크 산업이 엄청나게 성공적인 형태의 광고를 통해 스타덤에 오를 수 있을지가 현재의 이슈이다. 주장은 이에서 더 나아가 이러한 공식 없이는 페이스 북 같은 소셜 네트워크는 절대 성공할 수 없다는 데까지 이른다.

회의론자들은 이러한 네트워크가 두 가지 커다란 핸디캡을 안고 있다고 주장한다. 첫째로는 사람들이 소셜 네트워크 사이트에 로그인 하는 것은 친구들과 어울리기 위해서이므로 광고는 신경도 쓰지 않을 것이라는 점이다. 두 번째는 이러한 사이트들은 사용자들이 그들만의 컨텐츠를 만들도록 하는데, 저속하거나, 음란하거나 선정적인, 혹은 이 셋 모두와 함께 자신들의 광고가 노출되는 위험을 광고주들은 원하지 않고 따라서 그들을 끌어 모으기도 힘들 것이라는 것이다.

미미한 클릭율

회의론자들도 나름대로의 근거가 있다. 페이스북 같은 사이트에 보여지는 광고를 클릭하는 비율은 구글의 정확하게 겨냥된 검색 광고에 비하면 아주 작다. 그리고 광고주들이 그들의 브랜드를 소셜 사이트 페이지를 통해 광고하고 싶어하긴 하지만, 몇몇은 이러한 저조한 클릭율 때문에 광고 개제를 요청하는 것을 꺼려한다. “우리는 대부분의 시간을 이러한 네트워크를 통해 사람들과 소통하는데 사용하고 있습니다. 그들에게 광고하는 것이 아닙니다.” 포드사의 소셜 미디어 부서장인 Scott Monty는 말했다. 비록 작년에 사용자의 수가 급격히 늘었지만 가장 큰 광고 시장인 미국에서 소셜 네트워크 산업의 이익은 겨우 4%가 증가해 12억불에 불과하다고 시장 조사기관 eMarketer는 밝혔다.

이것도 사실은 하나의 성과였다. 왜냐하면 온라인 광고 시장 전체가 2009년에 줄어들었기 때문이다. 작년 매출이 줄어들었다고 생각되는 마이 스페이스를 제외하고 상황은 좋아진 것으로 보인다. 또 올해 마이 스페이스가 그들의 사이트에서 검색 광고를 구글이 관리하도록 한 협정을 갱신할 때가 다가왔다는 것도 또 다른 안좋은 소식이다. 새로 합의에 다다른다 해도 이는 일정 트래픽에 다다르기만 하면 3년간 900만불을 제시했던 이전 것보다는 더 안 좋은 조건이 될 것이다.

넓은 시각에서 소셜 네트워크 사이트들은 더 희망적이다. 올해 eMarket는 마이 스페이스의 곤경에도 불구하고 산업 전체 매출이 7%이상 증가할 것으로 예상했다. 또 다른 시장 조사 기관 ComScore는 작년 6월 미국 웹 이용자들이 본 5개중 하나의 광고가 소셜 네트워크 사이트에서였고 마이 스페이스가 여전히 이 중 가장 큰 비중을 차지했다고 밝혔다. 작년 8월 영국에서의 또 다른 조사도 비슷한 결과를 냈고 통신사들과 소매상들이 광고주의 가장 큰 부분을 차지했다.

광고에 대한 클릭율이 이렇게 낮은데도 이러한 네트워크 사이트들은 점점 더 인기를 얻어 갈까? 그 이유 중 하나는 이러한 선도적인 사이트들의 순수한 규모에 끌리기 때문이다. 페이스북의 이용자는 세상의 어떤 TV 네트워크보다 많은 이용자를 보유하고 있다고 Interactive Advertising Bureau의 국장 Randall Rothenberg는 말했다. 또 다른 기업들이 매력을 느끼는 요소는 사용자의 나이, 성별, 흥미 관심분야 등 수집된 데이터 덕분에 아주 정밀하게 타겟 광고를 펼칠 수 있는 네트워크의 능력이다. 비록 아직도 자신의 브랜드가 자극적인 컨텐츠와 함께 노출될 위험이 있지만, 기업들은 현재 네트워크 사이트들이 차지하는 광고의 비중이 점점 더 늘어감에 따라 이러한 위험을 기꺼이 껴안을 것으로 보인다.

소셜 네트워크 사이트들에게 더 많은 돈이 몰리고 있는 또 다른 이유는 몇몇 광고주들이 그들의 투자에 대한 막대한 이익을 기대하고 있기 때문이다. 영화사인 소니 Pictures Entermainment의 사장 Michael Lynton은 소셜 네트워크 사이트를 광고에 이용하는 것에 대해 매우 비판적이었다고 말했다. 사실 Lynton은 그들의 컨텐츠에 대한 온라인 불법 복제에 대한 비판 차원의 인터넷으로는 어떤 도움이 될 만한 것도 얻을 수 없었다는 발언으로 유명하다.

하지만 소니는 그들이 지난 여름 진행한 온라인 실험으로 도움이 될 만한 것을 얻을 수 있었다. 소니는 전통적인 방식의 TV 캠페인을 방영한 이후에 그들의 3편의 영화에 대한 홍보를 페이스북에서의 시리즈 광고로 진행했다. 디스트릭트9은 젊은 남성을, Julie & Julia는 중년 여성을 The Ugly Truth는 더 어린 여성을 대상으로 했다. 영화에 대한 인지도 조사가 TV광고가 끝난 후, 또 웹 광고가 끝난 후 시행되었다. 각각에서 온라인 광고가 인지도를 크게 끌어 올리는 것으로 나타났다. Lynton은 이제 소셜 네트워크가 마케팅에 커다란 지형 변화를 가져오는 것을 확신했다고 말했다.

락, 베이비

이러한 확신을 가지게 된 또 다른 기업은 작년 마이 스페이스와 공동으로 밴드들이 그들의 음악 데모 테이프를 제출토록 한 “Rock the Space” 공모전을 개최한 도요타이다. 약 18,000개가 출품 되었으며 마이 스페이스 이용자를 대상으로 최우수 테이프를 뽑는 투표가 진행되었으며 해당 밴드와는 음반 계약을 하도록 되어 있었다. 도요타 미국 법인에서 해외 소셜 미디어 마케팅을 담당하고 있는 Doug Frisbie는 이 프로모션이 그들의 브랜드 홍보에 대한 기대를 수배나 훌쩍 넘었다고 말했다.

이 두 기업의 사례는 소셜 네트워크를 이용하는 사람들은 비평가들이 생각하는 것 이상으로 브랜드에 높은 관심을 가진다는 사실을 말해준다. Lynton은 또한 사람들이 그들이 깨달은 사실을 친구들 사이에서 서로 말해주는데 소셜 네트워크를 이용하기 때문에 강력한 구전 마케팅 효과를 낼 수 있을 것이라고 예상한다. 마케터들은 이러한 추천이 상품 구입 결정에 매우 중요한 역할을 한다는 사실을 오래 전부터 알고 있었다. 소셜 네트워크는 이러한 과정을, 예를 들어 어떤 곳의 상품이나 특정 브랜드를 선호하게 됐다는 사실을 자동적으로 친구들에게 전달하는 등의 방법을 써서, 촉진 시킬 수 있는 효과적인 기술이다.

커다란 의문점 하나는 이러한 모든 것들이 커다란 광고 수입으로 연결 될 수 있느냐는 것이다. 소셜 네트워크 들이 그들의 공로로 인정 받고 있는 것보다 더 큰 값어치가 있는지에 대해서는 커다란 논란이 있을 것이라고 comScore의 애널리스트 Andrew Lipsman은 말했다. 하지만 그는 광고 산업이 현재 일어나고 있는 변화를 느리게 인지할 수도 있다고 경고했다. 이러한 속도를 따라잡기 위해, 페이스북은 Nielsen과 브랜드에 대한 소셜 네트워크 광고의 영향을 측정하기 위한 일련의 벤치마크를 수행할 연합을 구성하였다. 페이스북의 최고 운영 책임자인 Sheryl Sandberg는 이것이 회사들이 그들의 광고 효과에 대한 피드백을 과거보다 빠르게 얻을 수 있게 해줄 것이라고 말했다.

페이스북은 또한 내장된 온라인 투표라던가, 댓글을 달 수 있는 비디오 같은 사람들을 끌어 모으기 위한 새로운 형식의 광고를 실험 중에 있다. 지금까지는 확 끌어당길 수 있는 형태로 나타나지는 않았지만, 단지 현재에 머물러 있는 것처럼 보이지는 않는다. 정확한 수치로 밝혀지지는 않았지만, 페이스북은 작년 매출이 최소 5억불, 그 이상으로 이는 2009년 중반 자금 흐름이 흑자로 돌아서는데 도움을 주었을 것이다. 세계 경제 불황과 끔찍한 광고 시장을 배경으로 이것은 큰 성과이다. 이는 또한 페이스북이 하나의 성공적인 광고 포맷보다는 다양한 형태의 광고를 통해 잘 해나갈 수 있다는 것을 시사한다. 하나의 어마어마한 성공이 있을 필요가 없다고 IAB의 Rothenberg는 말한다.

즐거움과 소득

오직 광고 하나에 의지한 비지니스 모델일 필요도 없다. 일본의 GREE나, 커다란 소셜 네 트워크가 포함된 QQ를 가지고 있는 중국의 Tencent 등 아시아의 여러 기업들은 벌써 흡족한 수준의 이익을 게임이나 가상의 상품을 판매해서 올리고 있다. 2008년, 홍콩 증권 거래소에 상장되어있는 Tencent는 10억불이 넘는 그들의 매출 중 7.2억불이 온라인 게임이나 가상의 검, 상품 같은 아이템 판매를 통해 벌었다. 한국의 싸이월드, 일본의 믹시 같은 아시아의 많은 네트워크 사이트들도 이용자들에게 자신만의 배경이나 다른 자신의 네트워크 페이지를 꾸미기 위한 용품 판매로 많은 돈을 벌었다.

이에 고무되어 다른 기업들도 아시아의 모델에 있는 요소들을 포함 시키고 있다. 전세계적으로 6천만명의 가입자를 가진 미국의 Hi5는 다양한 게임을 그들의 플랫폼에 런칭 시키고 이들 게임에서 사용할 수 있는 Hi5 코인이라 불리는 그들만의 가상 화폐를 만들었다. 이 회사의 최고 기술 책임자인 Alex St John는 이용자들 사이에 사용되는 화폐 등의 스폰서로 나서도록 기업을 설득하는 등, 게임과 광고가 쉽게 융합될 수 있다고 말한다.

Ning은 게임보다는 선물에 초점을 맞추고 있다. 10월 그들은 사람들이 그들만의 네트워크를 시스템 상에서 구축하고 자신만의 디지털 아이템을 다른 사용자들에게 팔 수 있는 새로운 서비스를 런칭했다. 아이템의 가격은 50센트부터 10달러까지로, 40만개 이상이 매월 팔리고 있으며 이 이익을 동등하게 Ning과 고객이 분배한다. 이는 네트워크 관리 요금과 광고 판매 수익으로 벌어들인 매출에 추가될 것이다. 광고에 초점을 맞추고 있는 페이스북 조차 가상의 생일 케잌, 샴페인 병과 다른 상품 창고를 가지고 있다.

소셜 네트워크 사이트에서 이런 사업의 아름다움은 가상의 창고를 제작하고 저장하는데 비용이 얼마 들지 않는 다는 것이다. 게다가, 폐쇄된 시장이기 때문에, 높은 마진을 올릴 수 있는 선에서 가격을 고정 시킬 수 있다는 점이다. 어느 정도는 가상의 아이템들을 팔아서 큰 돈을 벌 수 있다는 개념이 기이해 보일 수도 있다. 하지만 이러한 행동은 실 세계에서 사람들간의 관계를 돈독하게 하기 위해 물리적인 선물을 주고 받는 것을 그대로 답습한다. 비록 아시아가 디지털 장신구들을 파는 훨씬 더 큰 최대의 시장으로 남아있지만, 연구기관 Inside Network는 미국의 다양한 웹 사이트에서의 가상 물건의 판매가 작년 10억불에 달했고 2010년에는 16억불까지 성장할 것이라고 예측했다.

수수하게 아니면 화려하게?

또 다른 수익성이 좋은 비지니스 모델 중 하나는 이용자에게 프리미엄 서비스에 대한 요금을 부과하는 것이다. 이러한 방법이 가장 적합한 것은 비지니스 대상의 네트워크이다. 예를 들어, LinkedIn은 기본적인 무료 서비스를 제공하지만, 사용자에게 최대 500달러의 월 가입 요금을 지불할지 물어본 후 추가적으로 다수의 소개 이메일을 사이트의 다른 이용자들에게 보내는 등의 서비스를 제공한다. 일년에 1억불 이상의 매출을 올리는 것으로 알려진 이 기업은 기업들에게 원하는 이력을 찾아 낼 수 있도록 돕는 온라인 도구를 제공하는데 요금을 부과하여 돈을 벌기도 한다. 이러한 “freemium” 모델과 부유한 고객까지 전달되기를 원하는 거대 브랜드들의 충분한 양의 광고가 결합되어 LinkedIn으로 하여금 몇 년 동안의 운영 이익을 벌게 해줬다.

소셜 네트워크들은 또한 검색 엔진들의 더 많은 컨텐츠를 확보하기를 원하는 욕구를 이용해 이득을 챙겨왔다. 트위터는 구글과 마이크로소프트의 검색 서비스 Bing의 검색 결과에 트위터의 데이터베이스를 포함시키도록 허용하는 돈이 되는 계약을 10월 체결했다.

올해 그들은 두 가지 방법으로 더 많은 돈을 벌 계획을 세우고 있다. 첫 번째는 트위터 상에서의 토론을 분석하는 도구 등의 서비스를 기업들에게 제공하고 요금을 부과하는 것이고, 또 사람들이 그들이 받는 트윗이 실제 기업이라는 것을 알게 해주는 인증된 계정을 통해서 이다. 그들은 또한 구글이 하는 것과 마찬가지의 맞춤형 광고를 시작해 돈을 벌기를 원한다. 트위터의 공동 설립자중 하나인 Biz Stone은 트위터의 팬들은 이미 다른 사람들로부터 정보를 얻는데 이 서비스(트위터)를 이용하고 있기 때문에 이를 기꺼이 받아들일 것이라고 예상했다. 사람들은 일상적으로 상업적인 사이트의 링크를 나누고 있으며 작년의 한 조사에 따르면 사람들은 그들의 트윗 중 20%에서 특정 브랜드나 제품을 언급한다. 이것이 왜 트위터나 다른 소셜 네트워크가 수 백 만개의 소규모 비지니스 뿐 아니라 수 천 개의 커다란 비지니스의 눈길을 끄는 이유이다.

[Economist] World Wide Wait

World Wide Wait

Feb 12th 2010 |
From The Economist online

The faster the internet becomes, the slower it loads pages
인터넷이 빨라질수록 페이지 로드 시간은 길어진다

최근의 웹 페이지들을 불러오는데 얼마나 오래 걸리는지 신경 써 본적이 있는가? 하나의 링크를 클릭하고 기다리고, 또 기다리고, 조금 더 기다리면 내용이 찔끔찔끔 표시된다. 만약 10초 정도 이후까지 아무 일이 일어나지 않는다면 참을성 없는 필자는 브라우져의 Stop 버튼을 누르고 Reload 버튼을 누른다. 필사적인 상태에서는 같은 링크를 두 번째 탭, 혹은 세 번째 탭에서까지 로드 해보고 웹 사이트의 서버에 페이지를 위한 다수의 요청을 퍼붓는다. 만약 그마저 실패한다면 넌더리를 내며 포기하고 대신 신문을 읽는다.

인터넷의 초창기 시절, 대부분의 웹 유저들이 전화선 연결에 의존하던 시절에는 브라우저는 부가적인 것이 없었으며, 웹 그래픽은 투박한 GIF 파일이었고, 8초가 사람들이 원하는 페이지가 로드 될 때까지 기다리는 시간의 최대치로 여겨졌다. 사람들을 다른 곳으로 발길을 돌리지 않도록 하기 위해 웹 디자이너들은 HTML 코드를 핵심만 남기고 가볍게 만들었고, 스타일시트 데이터나 자바 스크립트를 다른 곳에 하나의 파일로 모아 더 효과적으로 캐시할 수 있게 하고, 이미지는 적게 사용하고 더 작은 크기를 가지는 PNG나 JPEG과 같은 파일을 사용 가능하게 되자마자 즉시 수용했다. 텍스트와 비교하면 사진은 최소 1000단어와 동일한 전송 시간이 필요하다.

필자가 이코노미스트의 첫 번째 웹 사이트를 작성했던 1994년에는 일반적인 웹 페이지는 50킬로바이트 근처의 크기였고, 전화선을 이용한 모뎀은 1초에 3킬로바이트 이상을 전송할 수 없었다. “8초 규칙”을 지키기 위해서 사진은 최소한으로 사용되어서 어떤 페이지도 로딩을 시작하는데 3~4초 이상 걸리지 않았고, 완료 시 까지 20초가 걸리지 않았다. 아이러니한 것은 광대역이 널리 사용 가능하게 되어 전체적인 접속 속도가 급격히 늘어나고 있는 와중에도 웹 페이지를 로드 하는데 걸리는 시간은 더 늘어난 것처럼 보인다는 것이다.

필자는 DSL 연결이 수명을 다해간다는 사실을 인정한다. 하지만 지역 전화 교환기로부터 5km 떨어진 곳에서도 광대역 접속 속도는 과거 몇 년 동안 지역 회선이 개선되고 반향 제거 코일 같은 과거의 시설들이 접속 배전함에서 제거 됨으로써 초당 65킬로바이트에서 90킬로바이트로 증가했다.

물론, 필자는 초당 650킬로바이트 이상의 속도를 케이블을 통해 얻을 수 있다. 하지만 그것은 멋진 위성-TV 서비스를 버려야 하는 것을 의미한다. 이뿐 아니라 광 케이블은 내가 살고 있는 언덕까지 설치되려면 아직도 멀었다. 만약 현재의 DSL 연결을 위해 매달 내는 21불 대신 140불을 지불하면 초당 6메가 이상으로 인터넷에 접속할 수 있게 될 것이다.

70배의 속도 증가에 비해서 7배의 가격 상승은 할인으로 보인다. 하지만 필자는 순수한 속도의 증가가 가차없이 엄격한 로딩 문제를 해결할 수 있을지 의문이다. 비록 못미더운 DSL 연결로도 일단 웹 사이트의 서버가 ( 그리고 그 경로에 있는 모든 컴퓨터와 광고, 그래픽, 그 외의 잡다한 레이아웃을 위해 사용되는 컴퓨터들 ) 브라우저의 요청에 반응하기 시작하면 페이지들은 충분히 빨리 보여진다. 문제는 우선 서버로부터 응답을 받아내는 것이다.

두 컴퓨터가 서로 정보를 교환하기 전에 그들은 서로 이야기하는 것에 동의해야 한다. 일반적인 경우, 이는 사용자의 컴퓨터가 호스트 컴퓨터에 요청을 보내야 하고 이에 대한 응답이 다시 사용자에게 전달되어야 한다. 오직 이 “핸드쉐이킹” 과정 이후에야 정보의 교환이 시작된다. 이 왕복의 요청과 응답에 걸리는 시간이 네트워크의 대기 시간을 결정한다.

이 대기 시간은 전자기 신호가 왕복해야 할 거리를 광속으로 나눈 것 이하로 줄어들 수는 없다. 예를 들어, 필자는 샌프란시스코의 동료로부터 400마일이 떨어진 로스엔젤레스의 집에 산다. 이론상으로는 이 두 장소를 왕복하는 최소 시간은 4.3 밀리세컨드이다. 하지만 보통 다른 컴퓨터에 “Ping”을 보낼 때, 왕복 시간은 일반적으로 700 밀리세컨드이다. 이것도 꽤나 빠른 속도이지만 얼마나 많은 시간이 요청을 처리하기 위한 다양한 서버들을 기다리는데 필요한지 보여준다.

메시지들이 꼼짝 없이 붙들려 있어야 하는 곳들이 전송되는 길 곳곳에 있다. 라우팅 서버에서는 데이터가 트래픽에 따라 목적지를 향해 서로 다르게 분배되어야 하는 큐가 점점 길어질 수 있다. 그중 최악은 ISP 쪽의 DNS라 불리는 도메인 네임 서버가 이용자가 방문하고자 하는 사이트(예를 들어 www.economist.com)를 실제 인터넷 주소(216.35.68.215)로 변환하느라 정신이 없이 바쁜 상황이다. 만약 안다면, 웹 사이트의 실제 숫자 주소를 장황한 URL 이름 대신에 시도해보라. 응답시간을 절반으로 줄일 수도 있다.

DNS 변환에서든, 라우팅 컴퓨터에서든, 아니면 호스트 서버 자체에서든 이러한 병목 현상들은 대부분 인프라가 처리할 수 있는 것 이상으로 인터넷 트래픽이 혼합되는 양상이 변해온 것에 기인한다. 한때 단지 50킬로바이트의 텍스트와 조그만 그림들로 이루어졌던 웹 사이트가 현재에는 음악, 비디오와 애니메이션으로 이루어진다. 유투브, Hulu, 아이튠즈, 비트 토런트도 이러한 문제를 겪고 있다.

이동 통신사의 사설 망에서 문제는 더 심각해진다. 통신사들은 가입자들의 스마트폰을 사용하면서 페이스북을 확인하고 유투브에서 비디오를 보고, 대화형 게임을 하는 등, 요구를 맞춰주기 위해 노력하고 있다. 중간 범위의 스마트폰들은 보통 한 달에 100메가바이트 정보의 데이터를 소비하지만, 완벽한 브라우징 환경과 수 천 개의 다운로드형 어플리케이션을 갖춘 더 발전된 애플의 아이폰이나 모토롤라의 드로이드 같은 모델에서는 한 달에 500메가바이트 이상을 소비하는 경향이 있다. 곧 출시가 임박한 무선 모뎀을 갖춘 아이패드 같은 태블릿 컴퓨터에서는 다운로드 데이터 사용량이 한 달에 1기가바이트에 달할 수도 있다. (이번주 비지니스 섹션의 lead story 참고)

그리고 이것은 단지 시작에 불과하다. 인터넷의 상황을 보면, UCLA에 의해 운영되는 네트워크 기상 보고에 따르면 미국 기업의 웹 사이트들의 평균 지연시간은 현재 350ms 근처이다. 구글의 지연시간이 150ms, 페이스북이 285ms, 그리고 유투브가 515ms이다. 영상회의, 고해상도 실시간 비디오, 원격 수술 등 다음 세대의 인터넷 어플리케이션들이 구현되기 위해서 이러한 지연시간들은 상당한 양 짧아질 필요가 있다.

미래는 매혹적이다. Netflix는 Full-HD 사진의 해상도(1080p라 불리는, 사진에 총 1080의 선을 가진)와 5.1 채널의 입체음향을 가지는 주문형 실시간 비디오 서비스를 제공할 것이라고 발표했다. 깨끗하고, 조밀한 영상과 선명한 음질을 구현하기 위해서는 각 회선당 1초에 1메가의 대역폭과 60ms 이하의 지연시간이 요구된다.

인터넷 서비스 제공자들에게 이는 투자를 상당히 증가 시킨다는 것을 의미한다. 하지만 엄청나게 많은 라우터를 인터넷에 추가하는 것은 일을 더 복잡하게 만들 뿐 지연시간 문제를 해결 하는 데는 별 도움이 안될 수 있다. 무엇을 하든, 그것은 사실 잠재적인 병목현상의 수를 증가시킬 수 있다. 닷컴 붐으로 잘 나가던 시절에 설치되었지만 10여 년 전 거품이 꺼진 뒤부터 거리 지하에 방치되어있는 “Dark fiber”를 사용하는 것이 더 나은 해결책일 것이다. 이는 다수의 보안 회사들이 조용히 진행하던 일이었다. 자동화된 주식거래에서 1밀리초를 단축하는 일이 100만불의 수익증가를 불러오는 이 상황에서 지연시간이 0에 가까운 사설 광 네트워크를 구축하는 것은 충분히 매력적이다.

사실, 구글은 이번 주 통신사들이 새로운 광 인터넷을 구축하기를 기다리며 시간을 허비하지 않겠다고 발표했다. 구글은 초당 100메가바이트를 50,000에서 500,000명의 사람들에 제공 가능한 낮은 지연시간을 가지는 광 네트워크를 만들 계획을 세우고 있다. 운이 좋으면, 다른 모든 인터넷 서비스 제공업체들이 이를 알게 될 것이다.

영어 원문

[#M_ more.. | less.. |

EVER noticed how long it takes for web pages to load these days? You click on a link and wait and wait, and then wait some more, for the content to trickle in. If nothing has happened after ten seconds or so, your impatient correspondent hits the browser’s stop button followed by the reload key. In desperation, he sometimes loads the link into a second or even a third browser tab as well, and bombards the website’s server with multiple requests for the page. If that fails, he gives up in disgust and reads a newspaper instead.

Back in the early days of the internet, when most web users relied on dial-up connections, browsers were crude and web graphics were clumsy GIF files, eight seconds was considered the maximum people would stick around for a page to load. To increase “stickiness”, web designers pared their HTML code to the bone, collated their style-sheet data and JavaScripts into single files for more efficient caching elsewhere on the web, used fewer graphics and embraced the PNG and JPEG picture formats, with their smaller file sizes, as soon as they became available. Compared with text, pictures really were the equivalent of 1,000 words, at least when it came to the time taken to transmit them.

When your correspondent hand-coded The Economist’s first website back in 1994, a typical web page was about 50 kilobytes in size and dial-up modems could transfer no more than three kilobytes a second. To stay under the “eight-second rule”, pictures were kept to a minimum, so no page took more than three or four seconds to begin loading and never longer than 20 seconds to complete. The irony is that, with broadband nowadays more or less everywhere, overall connection speeds have gone up by leaps and bounds, yet the time taken to load web pages seems only to have got longer.

Your correspondent is admittedly near the end of the road for a digital subscriber line (DSL) connection. But even at three miles (5km) from the local telephone exchange, the speed of his broadband connection has inched up over the past few years from 65 kilobytes a second to more than 90 kilobytes a second—as the local line has been tweaked and legacy equipment like echo-cancelling coils removed from its junction boxes.

Sure, he could get 650 kilobytes a second or more from a cable connection. But that would mean ditching his otherwise excellent satellite-TV service. Besides, optical fibre is slowly working its way up his hillside. He could soon have access to the internet at more than six megabytes a second—providing he is prepared to pay $140 a month instead of $21 for his existing DSL connection.

A 70-fold increase in speed for a sevenfold increase in price would seem a bargain. But your correspondent is not sure that more raw speed will solve the glacial loading problem. Even with his wimpy DSL connection, pages are rendered quickly enough once the website’s servers (and all the other computers along the route, plus those used to host adverts, graphics and miscellaneous layout bits) start giving his browser’s request some attention. The trouble is getting their attention in the first place.

Before two computers can exchange information, they have to agree to talk to one another. Under normal conditions, this requires the user’s computer to send a request to the host computer, which then sends a response back to the user. Only after this “handshaking” is complete can the exchange of data commence. The time taken for this round-trip of request and acknowledgment determines the network’s latency.

The latency cannot be less than the distance the electromagnetic signal has to travel divided by the speed of light. For instance, your correspondent’s home in Los Angeles is 400 miles from a colleague’s in San Francisco. In theory, then, the shortest round-trip between the two locations is 4.3 milliseconds. But if you “ping” the other computer, you’ll get a round-trip time of typically 700 milliseconds. That is still pretty quick, but it shows just how much time is spent waiting around for the various servers involved to handle the request.

There are many places along the way where the message can get bogged down. Queues can build up at routing servers that switch data packages along different routes to their destinations depending on the traffic. Worst of all, the DNS (Domain Name Server) computers used by your ISP can be overwhelmed as they try to translate the names of all the websites subscribers want to visit (say, www.economist.com) into their actual internet addresses (216.35.68.215). If you know it, try using the website’s numerical address rather than its verbose URL (Universal Resource Locator) name. That can sometimes halve the response time.

The bottlenecks—whether at the DNS translators, the routing computers or the host’s own servers—stem largely from the way the mix of internet traffic has changed faster than the infrastructure used to carry it. Websites that were once just 50 kilobytes of text and tiny pictures now come with music, video and animated graphics. YouTube, Hulu, iTunes and BitTorrent have much to answer for.

It is even worse on the mobile phone companies’ proprietary networks. Carriers are struggling to keep up with demand as subscribers use their smart-phones to check Facebook, stream videos from YouTube and play interactive games. Where a mid-range smart-phone would consume about 100 megabytes of data a month, more advanced models like the Apple iPhone or Motorola Droid, with fully fledged browsers and access to thousands of downloadable applications, tend to consume over 500 megabytes a month. With the imminent arrival of tablet computers like the iPad, which come with wireless modems, the appetite for downloadable data could hit a gigabyte a month (see the lead story in this week’s Business section).

And this is just the beginning. On the internet, the average latency for corporate websites in America is currently around 350ms, according to the Network Weather Report operated by the University of California, Los Angeles. Google’s latency is 150ms, Facebook’s 285ms and YouTube’s 515ms. Such latencies will have to come down considerably if the next generation of internet applications, such as telepresence, high-definition video streaming and remote surgery, are to fulfil their promise.

The future is beckoning. Netflix has just announced an on-demand video-streaming service offering full high-definition picture quality (so-called 1080p, which has 1,080 lines in its picture) with 5.1-channel surround sound. Each stream being watched will require a megabyte a second of bandwidth and a latency of less than 60ms if it is to deliver crisp, pin-sharp video and pristine sound.

For the internet service providers, that means stepping up investment substantially. But adding a lot more routers to the internet would complicate matters hugely and do little to solve the latency problem. If anything, it would actually increase the number of potential bottlenecks.

A better solution might be to light up more of the “dark fibre” installed during the heady days of the dotcom boom, but left lying unused beneath the streets since the bubble burst nearly a decade ago. That is what a number of securities firms have been quietly doing. When shaving a millisecond off the time needed to execute automated trades can increase revenue by $100m, there is plenty of incentive to build private optical networks with latencies approaching zero.

Indeed, Google said this week that it was not going to hang around waiting for the telecoms industry to build the new optical web. The company is planning a low-latency fibre network that will be capable of delivering speeds of over 100 megabytes a second for communities of 50,000-500,000 people. With luck, other internet service providers everywhere will get the message.

_M#]