신호와소음 서평: 한겨레

모바일, 소셜, 빅데이터, 사물인터넷 등 최근에 주목 받고 있는 기술들은 사람과 사람, 사람과 기계, 기계와 기계 사이의 연결이 복잡다단하게 얽히고 섥힌 ‘초연결 사회’를 지향하고 있다. 지금 이 순간에도 다양한 기기들과 측정기술을 통해 구축된 다양한 형태의 관계망을 통해, 엄청나게 많은 양과 다양한 형태를 가진 데이터가 폭발적인 속도로 쏟아지고 있다. 인류가 멸망하지 않는 한 이러한 추세는 꺾이지 않을 것으로 보인다.

문제는 이처럼 감당할 수 없을 만큼 방대한 데이터가 빠르게 쏟아지면서 데이터의 무질서도(엔트로피)도 함께 폭증하고 있다는 것이다. 데이터는 폭발적으로 늘어나고 있지만, 대부분의 분야에서 어떤 데이터를 어떻게 활용하는 것이 좋은지에 대한 노하우가 충분히 쌓이지 않은 상태다. 더군다나 측정기술과 장치가 빠르게 개선되어 가면서, 이종(異種) 데이터 간의 ‘초연결성’은 더욱 더 심화되고 있다. 국내외의 많은 기업들이 데이터의 중요성을 인식해가고 있음에도 불구하고, 정작 제대로 활용한 사례를 찾아보기 힘든 이유가 여기에 있다.

설상가상으로, 현재 수집되고 있는 데이터 속에는 예측이나 분석을 통해 가치 있는 결과물을 만들어낼 수 있는 데이터 보다는, 활용 가치가 낮은 데이터, 즉 ‘소음(noise data)’이 많이 섞여 있는 경우가 허다하다. 그렇다고 해서 데이터를 안 들여다볼 수는 없다. 쓰레기 데이터 더미 속에서 진주를 찾아냈을 때의 부가가치가 점점 더 커지고 있기 때문이다. 때문에, 데이터의 양이 많아질수록 양질의 데이터를 잘 걸러내는 법, 다시 말해 “잘 골라내고 버리는” 법이 중요해진다.

‘신호와 소음’의 저자 네이트 실버는 책 제목 그대로, 방대한 소음의 바다에서 의미 있는 신호를 걸러내는 데 있어서 최근 몇 년 사이에 가장 놀라운 성공사례를 만들어 온 사람이다. 그가 지난 2003년에 만든 야구 통계예측 프로그램 ‘페코타(PECOTA)’는 어느 누구보다 더 정확히 메이저리그 야구 선수들의 성과를 예측해 냈다. 이윽고 2008년에 정치/사회 분야 예측을 모토로 개설한 ‘파이브서티에잇(538)’ 블로그를 통해 그는 2008년 미 대선에서 50개 주 중 인디애나 주를 제외한 49개 주의 결과를 정확히 예측했고, 상원 당선자 35명 전원을 맞췄다. 2012년 대선에선 대부분이 박빙 승부를 예측할 때 오바마의 낙승을 단언해 다시금 명성을 높였다.

저자는 이 책을 통해 글로벌 금융위기, 공산권 붕괴, 진주만 공습, 9ㆍ11 테러 등 대부분의 사건과 사고 이전에 의미 있는 신호가 분명히 존재하고 있었음을 강조한다. 그리고 왜 그러한 신호들이 있었음에도 불구하고 제대로 포착하고 대비할 수 없었는지 설명한다. 그는 자신의 분석 및 예측 노하우의 핵심인 ‘베이즈 정리’와, 그 토대가 되는 분석 관점 및 철학에 대한 깊이 있는 성찰의 결과물도 가감 없이 공유한다.

네이트 실버의 핵심 무기인 ‘베이즈 정리’는 쉽게 말해 모든 확률이 고정적이고 객관적으로 실재하는 것으로 간주하는 대신에, 확률 측정 과정의 시행 착오나 환경 변화로 인한 다양한 변화의 ‘개연성’을 열어놓고 확률을 계산하는 방법론이다. 사전에 도출된 확률은 새로운 정보 중 가장 가능성 있는 것들을 토대로 재 계산되며, 누적된 데이터를 통해 도출된 정확도를 토대로 가중치가 부여된다.

이러한 자세를 가지고 예측하는 전문가를 ‘여우형’이라고 지칭한 저자는, 그 반대인 ‘고슴도치형’ 전문가의 문제점을 예리하게 지적한다. 그는 “지식이 아무리 넘쳐나도 우리가 실제로 아는 것과 안다고 생각하는 것 사이의 격차는 점점 벌어지고 있다”고 했다. 그럼에도 불구하고 ‘고슴도치형’ 전문가들은 세상을 움직이는 거대한 법칙을 믿으며 자신만만하고 과감하게 예단한다. 반면 ‘여우형’ 전문가는 사소한 예측의 단서들을 존중하고, 변수가 또 다른 변수를 만들 수 있음을 인정하면서 “진리에 조금씩 더 가까이” 다가간다. 그들은 날마다 측정하고, 날마다 예측한다. 무오류성의 함정에 빠지지 않으면서 자기부정에 익숙한 ‘여우’들은 데이터 앞에서 겸손함을 잃지 않는다.

저자는 예측할 수 없는 것에 대한 겸손, 예측할 수 있는 것을 예측하는 용기, 이 둘 사이의 차이를 아는 지혜를 갖출 것을 주문한다. 그에 따르면 정확한 예측을 어렵게 하는 가장 큰 적은 선입견과 독단으로 오염된 주관적 관점이다. 그는 여러 분야의 지식과 정보를 균형 있게 섬렵하고, 이를 토대로 이종(異種)의 데이터를 아울러 가며 다양한 분석 시도를 서슴지 않는 것, 실수와 오류를 인정하는 것이 정확한 예측을 위한 새로운 왕도가 될 것이라고 주장한다.

우리 시대는 빅데이터와 첨단기술을 빙자한 “수학과 통계”의 시대다. 앞으로는 거의 모든 분야에서, 이전에 얻지 못했던 데이터를 활용한 다양한 분석과 예측이 광범위하게 활용될 것이다. 마케팅이나 홍보, 정치, IT등 유관분야 종사자가 아니더라도, 앞으로는 데이터 더미가 만들어 내는 의사결정의 미로 속에서 길을 잃고 헤매게 되기 쉽다. 자세한 분석 기법을 숙지할 수는 없더라도, 최소한 어떤 논리와 철학을 토대로 측정과 예측이 수행되는 것이 바람직한지에 대해 이해하고 있을 필요가 있다. 이 책에는 정치, 경제, 전쟁, 도박, 스포츠, 기후 등 다양한 분야를 아우르는 풍부한 사례들이 담겨 있어, 수학이나 통계라는 말만 들어도 겁부터 덜컥 나는 많은 사람들도 쉽고 편하게 읽을 수 있을 것으로 기대한다.

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Google+ photo

Google+의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

%s에 연결하는 중