블로그 마이닝
Mar 11th 2010 |
From The Economist print edition
유용한 정보를 찾기 위해 블로그들을 샅샅이 뒤지다
“도어매트가 살짝 구부러진 각도로 놓여있는 것을 깨달았습니다. 나는 몸을 구부려 그 매트를 원래 자리로 옮겨놨지요.” 세계에서 가장 재미없는 블로그의 최근 글은 이렇게 시작한다. 비록 이런 문구가 인터넷의 알맹이 없는 블로그들에 대한 일종의 풍자이지만, 과학자들은 – 놀랍게도 – 지루한 블로고스피어에서 유용한 정보가 나올 것이라 믿고 이를 찾고 있다.
로스엔젤레스에 위치한 USC의 창의적 기술 연구소의 Andrew Gordon과 그의 동료들은 컴퓨터에게 원인과 그 결과를 가르치기 위해 노력하고 있다. 컴퓨터들은 인과 관계를 다루는 데는 적합하지 않다. 컴퓨터가 특정 이벤트를 인식할 수는 있지만 관계까지 밝혀내는 것은 너무 어렵다. 이는 컴퓨터를 사용하여 인간의 경험을 분석하고자 할 때 특히 그렇다.
하지만 컴퓨터가 개인적인 블로그를 읽음으로써 많은 인과 관계를 학습할 수 있다는 것이 밝혀졌다. 매일 영어로 작성되는 백만 개쯤 되는 블로그 글들은 대부분 뉴스에 대한 커맨트, 활동 계획, 아니면 일상에 대한 개인적 생각들이다. 약 5% 정도는 최근 작성자에게 일어난 사건에 대한 이야기를 들려주고 있다.
그들의 컴퓨터 시스템이 블로그들을 학습하게 하기 위해서, 연구진들은 2단계의 과정을 진행했다. 첫 번째 단계는 사람들에게 수천 개의 블로그 글들을 “스토리” (역:시간의 흐름에 따른 순차적인 서술)와 “스토리가 아닌 것”으로 분류하게 했다. 사람들은 스토리를 이야기 할 때 다른 형태의 담화들에 비해서 다른 단어들을 다른 빈도로 사용한다. 선택된 블로그 글에서 나타나는 대명사와 과거 동사들의 빈도를 계산하여 그 내용이 무엇이든 상관없이 이 두 가지 종류를 구분하는 것이 가능하다고 Gordon 박사는 말한다. 그의 컴퓨터 시스템은 다른 블로그 글들을 보고 그것이 서술인지 아닌지를 밝혀냈다.
두 번째 단계는 시스템이 인과 관계를 구분할 수 있도록 가르치는 것이다. 여기서도 연구팀은 거의 비슷한 기술을 사용한다. 고든 박사와 그의 학생들은 수천 개의 임의의 블로그 글들을 읽고 인과관계로 연관된 구들을 특별히 표시하여 컴퓨터가 알아볼 수 있게 했다. (“나는 X를 했기 때문에 Y가 일어났다” 같은) 이러한 구들을 블로그 글에서 구분해 놓으면 컴퓨터는 “나는 브레이크를 세게 밟았지만 결국 내 앞의 차와 부딪히고 말았다.” 혹은 “그 의사는 내가 너무 기름지게 먹어서 심장 상태가 위험한 지경이라고 나를 꾸짖었다.” 같은 원인과 결과가 포함된 문장을 골라내고 분류하는 것이 가능해진다.
이것이 결국에는 시스템으로 하여금 다수 대중의 개인적 삶에 대한 취합된 통계정보를 매일매일 모으는 것이 가능하게 할 것이라는 것이 핵심이며 이는 다른 방법을 통해서는 얻어내기 불가능한 정보가 될 것이라는 것이다. 궁극적으로, Gordon 박사는 웹 로그의 개인적 이야기들에 대한 분석이 훨씬 더 확장된 구글의 Flu 추적과 같은 형태로 사용 될 것이라고 예상한다. 구글의 Flu 추적은 특정 지역에서 flu와 관련된 검색어가 집중적으로 나타나는 현상에 대한 검색 데이터 마이닝으로 인플루엔자 발병의 초기 징조를 찾아냄으로써 가능하다.
약물 복용이나 영화에 흥미를 가지게 만드는 인종 갈등, 신 제품 등등의 모든 것들을 포함하는 새로운 유행이나 행동에 관한 정보를 추적하기 위해 웹이 이용된다. 블로그는 본질적으로 사람들이 그들의 일상에 대한 커멘트를 재빠르게 올리는 것을 의미한다. 따라서 이러한 종류의 정보를 캐내어 어떻게 아이디어가 퍼져나가고 유행이 생겨나는지에 대한 정확한 내용을 밝혀낼 것이다.
웹 이전의 세상에서는 일상의 자질구레한 일에 대해 떠드는 것은 주위 사람들에게만 알려졌고, 글로 쓰여지지 않았다. 따라서 이러한 분석의 대상이 되지도 못했다. 나중에 사람들이 읽어줄 것을 위해 일상을 적고 강박적으로 누가 글을 읽었는지 알아보기 위해 방문자수를 확인하고 있는 오늘날의 블로그 운영자들은 최소한 컴퓨터는 그들의 글이 흥미진진하다는 사실을 알아준다는 생각에 위로 받을 수 있다.
영어 원문
[#M_ more.. | less.. |
Analysing the web
Blog mining Scouring blogs for useful information
Mar 11th 2010 |
From The Economist print edition
“I NOTICED that the doormat was at a slightly crooked angle. I reached down and moved the mat back into its correct place.” Thus began a recent entry on The dullest blog in the world. Although this publication is something of a satire on the internet’s inane blogs, scientists are finding—to their surprise—that useful information can actually be mined from the tedium of the blogosphere.
Andrew Gordon and his colleagues at the University of Southern California’s Institute for Creative Technologies in Los Angeles have been trying to teach computers about cause and effect. Computers are not good at dealing with causality. They can identify particular events but working out relationships is more difficult. This is particularly true when it comes to using computers to analyse the human experience.
But it turns out that computers can learn a lot about causality by reading personal blogs. Of the million or so blog entries that are written in English every day, most are comments on news, plans for activities, or personal thoughts about life. Roughly 5% are narratives telling stories about events that have recently happened to the author.
To enable their computer system to learn from blogs, the team followed a two-step process. The first step was for humans to flag thousands of blog entries as either “story” or “not story”. People use different words with different frequencies when they are telling stories, as compared with other forms of discourse. By tallying up the frequencies of parts of speech such as pronouns (I, she, we) and past-tense verbs (went, said, thought) in these flagged blogs, it is possible to distinguish between the two types—regardless of what the story is actually about, says Dr Gordon. His computer system could then look at other blog entries and work out whether they were narrative or not.
The second step was to teach the system to identify causal connections. Here the team used much the same technique. Dr Gordon and his students read thousands of random blog entries and specifically pointed out phrasing associated with causal relationships (such as “I did X so then Y happened”) for the computer to pick up on. Identifying such phrases in blog entries then enables the computer to pick out and categorise those sentences that contain a cause and an effect, such as “I slammed on the brakes but ended up smashing into the car in front of me” or “The doctor scolded me for eating too much fat and risking a heart condition.”
The idea is that this will eventually lead to a system that can gather aggregated statistics on a day-by-day basis about the personal lives of large populations—information that would be impossible to garner from any other source. Ultimately, Dr Gordon expects the analysis of personal stories in weblogs to be used much like Google’s flu tracker, but on a much grander scale. Google’s flu-tracking scheme can detect early signs of influenza outbreaks by mining search data for flurries of flu-related search terms in a particular region.
The web could be mined to track information about emerging trends and behaviours, covering everything from drug use or racial tension to interest in films or new products. The nature of blogging means that people are quick to comment on events in their daily lives. Mining this sort of information might therefore also reveal information about exactly how ideas are spread and trends are set.
In the world before the web, chatter about the trivialities of everyday life was shared in person, and not written down, so it could not be subjected to such analysis. While recording their words for posterity and obsessively checking their hit counters to see if anyone is reading them, today’s blog authors can console themselves with the thought that computers, at least, find their work fascinating.
_M#]
웹에 하루에 올려지는 수백만개의 블로그 Entry들을 가장 열심히 읽고 있는 것은 역설적으로 크롤러들이다 ㅋㅋ
컴퓨터가 아닌 많은 사람들이 읽을 글을 쓰고 싶네요.
네, 저도 그래요.
그래서 요즘은 쓰고 싶은 글 보다는 읽고 싶은 글을 쓰려고 노력 중입니다. 물론 잘 안되서 그 중간 어디쯤에 머무르지만요 ^^
매우 흥미진진 하군요~ㅋㅋ
요즘 재미있는 기사가 많더라구~