본문바로가기

한겨레21

기사 공유 및 설정

구글트렌드는 여론조사를 대체할까

여론조사의 대안으로 떠오른 빅데이터, 그 가능성과 한계
등록 2021-07-10 08:43 수정 2021-07-13 05:27
2014년 5월 서울 서대문구 충정로3가 여론조사 전문기관인 리서치플러스에서 조사원들이 6·4 지방선거 여론조사를 하고 있다. 한겨레 자료

2014년 5월 서울 서대문구 충정로3가 여론조사 전문기관인 리서치플러스에서 조사원들이 6·4 지방선거 여론조사를 하고 있다. 한겨레 자료

선거가 끝나면 여론조사에 대한 비판이 여러 모양으로 나온다. 최근엔 여론조사보다 빅데이터가 더 정확하고, 빅데이터가 여론조사를 대체하리라는 전망이 더해진다. ‘여론조사는 틀렸지만 빅데이터는 맞혔다’ ‘구글트렌드는 이미 선거 결과를 알고 있었다’ ‘빅데이터 완승, 여론조사 시대 저무나’ 등의 언론 기사 제목을 쉽게 발견할 수 있다.

트럼프 당선 ‘맞힌’ 구글트렌드

2016년 미국 대선에서도 그랬다. 도널드 트럼프의 당선을 온라인상 검색량 변화를 보여주는 구글트렌드가 정확히 맞혔다는 보도가 많았다. 당시 미국 여론조사기관들이 내놓은 예측은 완벽히 빗나갔다. 반면 빅데이터 분석의 일종인 구글트렌드에서는 트럼프가 온라인 검색량에서 우위를 보였다. 사람들 마음을 알아보는 거의 유일한 방법으로 오랜 시간 주인공 노릇을 한 여론조사가 무용지물이 됐다는 지적까지 나왔다. 빅데이터 시대 개막은 분석법의 발전에 따른 것이지만 여론조사 불신도 한몫했다.

구글트렌드는 사람들이 쉽게 이용하고 확인할 수 있어 눈길을 끈다. 온라인에서 사람들이 검색하는 단어나 표현의 변화량 추이를 나라별, 기간별로 살펴볼 수 있다. 우리나라 포털인 네이버도 동일한 검색어트렌드 정보를 시각화해 제공한다.

사람들은 어떤 제품, 인물, 사건 등의 정보를 얻기 위해 온라인 검색을 한다. 검색 행위는 내면의 관심도를 외부로 표출하는 행위다. 검색량이 많아지면 대중의 관심이 많아졌다고 해석할 수 있다. 실제 어떤 이슈가 떠오르면 온라인 이용자가 해당 사안을 검색하는 양이 급증한다.

이를 선거에도 적용할 수 있다. 사람들은 선거 국면에서 관심과 호감이 가는 인물을 더 많이 검색하고 이는 그 인물에 대한 지지로 이어질 것이라는 인식을 담고 있다. 지지할 뿐 아니라 이들이 투표장에 갈 것이라는 가설도 받아들인다. 적극적으로 정보를 탐색한 사람들이라서 지지 강도가 크고 투표 참여도 당연하다는 추정이다.

사람들의 생각을 직접 물어보는 여론조사 방식과는 다른 방법론이다. 사람들은 솔직하지 않을 때가 많고, 선거 같은 민감한 상황에선 특히 그 속마음을 조사면접원에게 털어놓지 않기에 홀로 온라인에서 한 행동이 진짜 생각이라고들 말한다.

여론조사의 한계도 크기에 새로운 시도를 긍정적이고 개방적으로 볼 필요가 있다. 과학기술 발달로 사람들의 무의식까지 아는 시대로 가는데, 언제까지 질문하고 답하는 설문 방식만이 옳다고 할 수는 없다. 새롭게 출현한 온라인 빅데이터를 통한 분석은 분명 경청해볼 가치가 크다.

그러나 구글트렌드나 네이버 검색어트렌드로 선거 결과를 예측하는 일은 무모한 면이 있다. 선거라는 특성을 고려하면 더욱 설득력이 떨어진다. 어쩌다 어느 후보의 당선과 낙선을 맞힐 수는 있으나 그것은 엄밀성에 기반하지 않았다.

검색은 지지 행위?

결정적 이유로 구글트렌드는 ‘대표성’(Representativeness)이 부실하다. 한국에서 구글 사용자가 적기 때문이 아니다. 네이버 검색어트렌드도 마찬가지다. 선거는 1인1표 원리로 작동한다. 유권자 누구나 1표씩 행사한다. 여론조사에는 이 원리가 적용된다. 한 사람이 한 사람만큼 답변한다. 또 전국 지역에서 고르게 표집한다. 성별·연령별 분포도 실제 유권자 비율대로 반영한다. 대표성을 확보하게 된다.

이에 비해 온라인 검색은 1인1표처럼 한 번만 검색하지 않는다. 어떤 사람은 여러 번 검색하고, 어떤 사람은 아예 해당 인물을 검색하지 않는다. 검색하는 사람들이 성, 연령, 지역적으로 고르게 분포했다고 보기도 어렵다. 특정 연령대는 아예 온라인 검색을 하지 않는 일도 많다.

‘검색하면 지지한다’는 전제도 비약이 심하다. 좋아해서 검색할 수 있지만, 싫어해서 검색할 수도 있다. 증오하는 마음으로 검색할 수도 있다. 특정 후보에게 악재가 발생할 때마다 더 자세히 알아보기 위해 해당 인물을 검색하는 일도 많다. 모든 검색 행위를 호감과 지지로 일반화할 수 없다.

검색어트렌드는 사람들의 관심도 추이를 보여주는 데 유의미한 정보를 주지만, 대표성 원리가 핵심인 선거와 관련해서는 만능이 아니다. 선거 예측에서 구글트렌드가 흥밋거리 제공을 넘어 실제적인 예측력이 있다면 4년이 지난 2020년 미 대선에서 여론조사는 사라졌겠지만 여전히 판세 분석에 동원됐다. 구글트렌드는 그다지 주목받지 못했다. 2020년 미 대선 기간에 구글트렌드는 조 바이든보다 도널드 트럼프의 검색량이 더 많았지만 이번 예측에선 실패했다.

어떤 빅데이터 전문가들은 구글트렌드가 아니라 진짜 빅데이터 분석으로 사람들 마음을 여론조사만큼 또는 그보다 더 정확하게 확인할 수 있다고 주장한다. 여기서 빅데이터는 개인과 대중에 대한 상세하고 종합적인 데이터를 뜻하는데, 이를 수집할 수 있다면 얘기가 달라진다는 말이다. 해당 유권자의 사회관계망서비스(SNS) 주소와 그동안 남긴 글, SNS로 확인되는 친구관계, 신용카드 사용 내역, 온라인 검색어, 즐겨 찾는 사이트, 즐겨 보는 방송 프로그램, 역대 선거에서 투표 참여 여부 등의 정보를 확보할 수만 있다면 이를 토대로 선거에서 이 사람이 누구를 지지할지 알 수 있다는 주장이다. 미국 선거에선 이런 개인정보를 찾아 연결해 이른바 마이크로타기팅 캠페인에 활용한다.

현실에서 온전하고 충분한 빅데이터를 확보하기란 쉽지 않다. 최대한 정보를 입수해 해당 인물이 반응할 만한 메시지를 보내고 이를 지지로 연결해보려 시도할 수는 있지만, 유권자의 개인정보를 많이 안다고 누구에게 투표했는지 정확히 알 수 있다는 건 여전히 이상적인 가설이다.

상호보완 가능할까

빅데이터 수집과 분석 기술은 상당한 경지에 이르렀다. 현실을 분석하고 미래를 예측하는 데 유용성도 꾸준히 커지고 있다. 하지만 선거나 투표에서 여론조사를 대신할 순 없다. 대체가 가능한지 논쟁할 일도 아니다. 방법론이 전혀 다르고 대표성이 있어야 하는 선거적 특성을 고려해야 한다. 아무리 빅데이터가 유행이라 하더라도 모든 영역에서 중간 자리를 줄 수는 없다. 여론조사와 빅데이터 분석의 장점이 각각 무엇인지 차분히 살피고, 두 가지를 어떻게 결합할지 상호보완적으로 접근해야 한다.

윤희웅 오피니언라이브 여론분석센터장
*‘윤희웅의 여론 읽기’는 여론조사의 허와 실을 파헤쳐 정확하게 여론 읽는 법을 전하는 칼럼입니다. 격주 연재.

한겨레는 타협하지 않겠습니다
진실을 응원해 주세요
맨위로