티스토리 뷰
예전에 복잡계 네트워크를 연구하는 정하웅 카이스트 교수의 강의를 들은 적이 있었습니다. 그분이 절대적으로(?) 신봉하는 것 중에 '구글 신'이 있었는데 천문학적인 데이터를 처리하는 구글이 검색 결과를 보여주는 알고리즘은 나날이 정교해져서 단순히 검색 결과의 양을 아는 것만으로도 트렌드를 예측할 수 있다는 것이었습니다. 예를 들어 구글이 만든 '독감지도'는 독감이라는 단어의 양을 분석해서 독감이 어느 지역에서 유행할 것임을 예상할 수 있는 것이었죠.
한때 다양한 언어 번역으로 '인터넷의 바벨탑'이라 불리던 검색엔진 알타비스타가 망한 것과 구글의 번역 서비스가 이를 대체한 이유에도 빅데이터를 통한 접근이라는 큰 차이가 있었습니다. 알타비스타는 수많은 언어를 일일이 대조해 결과를 표시해준데 반해, 구글은 기존 문서 페이지에서 해당하는 단어의 매칭을 비교해 가장 많이 쓰이는 번역어를 표시해준 것이죠. 결과의 양이 적으면 오류가 발생할 수도 있지만 이미 전세계에서 널리 쓰이는 구글은 확률의 오차를 크게 줄일 수 있었습니다. 말하자면 전세계의 브레인들이 협업으로 위키피디아를 만든 방식 그대로 컴퓨터에 적용한 것이죠.
구글의 검색 창에는 'I'm feeling lucky'라는 버튼이 있습니다. 원하는 검색 결과를 표시해주는 페이지로 바로 넘어가는 기술입니다. 신기하게도 검색 창에 질문을 서술형으로 길게 넣을수록 행운이 깃들 확률이 높아지는데 그 뒤에서 구글의 검색엔진이 얼마나 정교하게 세상의 모든 데이터들을 비교하며 우선순위를 매기고 있을지 짐작도 가지 않습니다.
선거에서도 빅데이터는 위용을 발휘합니다. 정하웅 교수는 동료 카이스트 교수들과 함께 강의내용을 모아 [구글 신은 모든 것을 알고 있다]라는 책을 내기도 했는데 이 책에서 소개하는 사례 중 재미있는 것은 선거 당일 날 혹은 전날, 구글에게 물어보면 당선자를 알려준다는 것입니다. 지난 미국 대선 당시 오바마 대 롬니의 경우, 51:49로 그 비율까지 정확히 맞혀 화제가 되기도 했습니다. 한국에서는 박원순 대 나경원, 박근혜 대 문재인 결과에 적용을 해보았는데 실제 득표율과 검색결과의 비율이 상당히 정확했다고 합니다. (이 결과에 당시 개표 조작을 의심하던 사람들이 탄식했었죠) 그래서 정하웅 교수는 선거 전날, 당선자를 미리 알기 위해 목욕재개하고 구글 신을 영접한다고 하는군요.
저도 한 번 해봤습니다. 6.4 지방선거에서 구글 신이 예측하는 당선자는 과연 누구일까요? 아래 결과를 한 번 보시죠.
서울시장 박원순 대 정몽준 = 11,800 대 9,770
경기도지사 남경필 대 김진표 = 7,870 대 2,090
인천시장 송영길 대 유정복 = 3,260 대 2,260
부산시장 서병수 대 오거돈 = 1,450 대 1,910
다른 지역도 해봤습니다만, 구글은 전국 단위 검색이기 때문에 화제가 되지 않는 지역은 인지도에 따라 검색결과에서 차이가 날 수밖에 없었고 그래서 의미가 없다고 판단했습니다.
구글 신은 지방선거의 승자를 박원순, 남경필, 송영길, 오거돈으로 예측했습니다. 저는 사전투표를 해서 그런지 막상 선거 당일이 되니 조금 허전하군요. 구글의 예측 결과가 실제 득표율과 근접해 있을지 개표방송이 기다려집니다.
- Total
- Today
- Yesterday