등록 : 2019.06.01 20:38
수정 : 2019.06.24 09:23
|
기사의 취재를 구조화된 데이터로 처리해 만들어진 폴리태팩트 화면. 인터넷 갈무리.
|
권오성의 세상을 바꾼 데이터
전직 WP 개발자 애드리언 홀로바티의
‘신문 사이트가 바뀌어야 하는 근본적인 방식’
데이터를 글로 표현해야 한다는 강박에서 벗어날 때
폴리티팩트 같은 다양한 가능성 열려
|
기사의 취재를 구조화된 데이터로 처리해 만들어진 폴리태팩트 화면. 인터넷 갈무리.
|
기자에게는 강박이 있다. 취재한 것을 기사로 써야 한다는 강박이다. 기자는 기사를 쓰는 사람이니 당연한 것 아니냐고 할 수도 있다. 물론 표현 방식이 기사뿐인 과거에는 맞는 말이었다. 하지만 현재 미디어 환경에선 이는 구문이 된 지 오래다. 여러 미디어의 융합이 손쉬운 디지털 환경에서 꼭 무언가를 글로 표현해야 한다는 고집은 고루하다. 기자의 일은 정보를 어떤 방법이든 독자에게 효과적으로 전달하는 것이라는 쇄신이 필요하다.
저널리즘의 다른 전달 방식 가운데 정보의 데이터로서 속성에 일찍이 주목한 이가 있었다. 미국 일간 <워싱턴포스트>의 전직 개발자였던 애드리언 홀로바티(Adrian Holovaty)다. 그는 데이터 저널리즘계 일종의 강령처럼 여겨지는
‘신문 사이트가 바뀌어야 하는 근본적인 방식’(A fundamental way newspaper sites need to change)이라는 선구적인 2006년 블로그 글에 그 생각을 잘 요약했다.
그는 이 글에서 “신문사는 이야기 중심의 세계관을 버려야 한다”고 주장했다. 그는 기자들 취재 내용의 상당 부분이 ‘구조화된 데이터’(structured data)라고 보았다. 구조화된 데이터란 기계가 이해하고 자르고 쪼개기 쉬운 정보를 말한다. 예를 들어 어디서 불이 났다고 하자. 이 사건은 여러 속성으로 쪼개서 표현할 수 있다. 즉, 사건이 일어난 시간, 장소, 피해, 희생자 현황, 출동한 소방서, 소방서로부터 거리, 도착 시각 등의 속성별 정보로 표현하는 것이다. 이러면 한 화재는 엑셀 표의 하나의 행으로 요약될 수도 있을 것이다. 하지만 기자는 사건을 이렇게 다루지 않는다. 비슷한 정보를 취재하지만 항상 한 뭉치의 글로 표현한다. 이는 화재 사건기사로 출고되고, 그러고 나면 그 상태로 영원히 남는다. 이런 생산 방식은 현재 모든 종류의 기자와 기사가 비슷하다.
홀로바티는 모든 정보가 이렇게 표현될 필요는 없다고 보았다. 특히 인터넷 중심의 미디어 시대에는 그러하다. 글은 ‘구조화된 데이터’가 아니다. 기계는 기사나 글을 이해하지 못한다(이는 점차 사실이 아니게 되고 있으며 결론에 그에 대해 언급할 것이다). 어떤 취재 내용을 글로만 표현하고 치우는 것은 기계 입장에선 유용한 데이터를 무용지물의 공간에 던져 넣는 것과 같다.
정보는 결국 독자라는 다른 사람을 위한 것인데 왜 기계 입장 따위를 고려해야 할까? 구조화된 데이터는 독자들에게 더 유용한 포맷의 콘텐츠로 다양하게 여러 번 활용될 수 있기 때문이다. 날씨 기사를 예로 보자. 날씨 정보의 핵심은 보통 비슷하다. 기온, 비가 올 확률, 맑은지 흐린지, 미세먼지, 습도 등이다. 이를 굳이 풀어서 기사로 쓰는 것은 습관이라 그렇게 하는 것이지 사실은 불필요한 일이다. 매일 아침에 필요한 정보는 기사든, 구조화된 데이터든 비슷하게 얻을 수 있다. 하지만 구조화된 데이터인 경우 다른 활용도가 월등하다. 여러 날짜나 연도별로 이런 데이터가 있으면 시계열에 따른 경향을 뽑아낼 수 있다. 지리정보시스템(GIS) 데이터와 결합하면 지도 그래픽 위에 뿌릴 수 있다. 이런 표현은 기계가 이해할 수 있는 데이터일 때 자동으로 수행할 수 있으며 최종 독자 입장에서 훨씬 유용하다(기상청이나 포털 등 갈수록 많은 기관이 이런 식으로 데이터를 제공하거나 표현하고 있다). 각종 경제 지표나 스포츠 데이터, 범죄 사건 등도 쉽게 들 수 있는 사례다.
홀로바티도 덧붙였지만 물론 여기에 해당하지 않는, 이야기로 표현해야만 하는 사건들도 세상에는 여전히 많다. 그것은 해오던 대로 잘 표현하면 된다. 문제는 언론계가 기사 중심의 사고방식과 그에 따른 조직문화로 지내온 지가 오래되어서 그 밖의 생각과 상상력은 좀체 용납하지 않는다는 점이다. 예컨대 언론사의 콘텐츠관리시스템(CMS·Contents Management System)은 모든 들어오는 정보를 기사로 변환해 출력하는 데 특화되어 있다. 사진은 기사 포맷에 짧은 글을 단 사진 기사로, 그래픽은 기사 포맷에 짧은 글을 단 그래픽 기사로 나가야 한다. 구조화된 데이터로 처리하면 유용할 것 같은 정보가 설사 있다 한들 이 시스템을 쓰는 사람은 어찌 됐건 해오던 방식에 따라 결국 기사로 출력해야 한다. 취재 내용을 구조화된 데이터베이스로 저장하거나 다른 방식으로 웹에 표현하고 싶어도 기사 중심 사고의 시스템은 이를 용납하지 않으며, 기사 중심 사고의 언론사는 투자할 생각이 없다.
그런데 이게 현실성은 있는 이야기일까? 구조화된 데이터란 형식이 실제 독자에게 유용하게 제공된 사례는 있는가? 있다.
<폴리티팩트>(Politifact)는 미국의 대표적인 정치 중심 팩트체크 매체다. 이 매체는 2007년 미국 <세인트피터스버그 타임스>(현재 <탬파베이 타임스>)의 당시 워싱턴 지부 국장이었던 빌 어데어(Bill Adair)가 같은 회사의 기자이자 프로그래머였던 매트 와이트(Matt Waite)와 합작해 만들었다. 이 매체는 당시에는 혁신적으로 어떤 정치인의 발언에 대해 팩트인지 거짓인지를 검증하고 이를 “진실 미터”(Truth-O-Meter)의 수치로 표현했다. 여기서 검증은 기자의 몫이지만 검증 결과는 누가 언제 어디서 한 말이고 진실 미터 점수는 무엇인지 등에 대한 구조화된 데이터로 정리된다. 따라서 이후 어떤 정치인이 어떤 말을 했을 때 그가 과거 언제 어디서 무슨 말을 했으며 당시의 진실 미터는 어떠했는지에 대한 일목요연한 목록을 자동화하여 추출하는 데 활용될 수 있다. 와이트는 <폴리티팩트>에 대해 설명한
자신의 블로그에서 이 사이트는 “전반적으로 홀로바티의 아이디어에서 영감을 받았다”고 표현한 바 있다(참고로 와이트는 홀로바티가 개발한 디장고(Django)라는 파이썬(Python) 기반의 웹 개발 프레임워크를 활용했으며, <폴리티팩트>를 개발하기 전에는 파이썬으로 뭔가를 만들어 본 경험도 없는 초보였다고 한다). 이 사이트는 2009년 퓰리처상을 받았다. 이는 기자란 기사를 써야 한다는 고정관념에서 벗어날 경우 언론인이 할 수 있는 여러 가능성 가운데 하나일 뿐이다.
홀로바티의 아이디어는 데이터 저널리즘의 태동에 큰 영향을 미쳤다. 데이터 저널리즘의 대표적 선구자로 여겨지는 사이먼 로저스(Simon Rogers, 전직 가디언 데이터 저널리스트이며 현재 구글 뉴스랩의 데이터에디터)도
그를 통해 데이터 저널리즘을 처음 접했다고 한 바 있다.
그의 블로그 글로부터 13년이 지난 지금까지 많은 일이 있었다. 기술적으로 결코 빼놓을 수 없는 것이 기계학습과 인공지능의 부상일 것이다. 인공지능이 가장 눈부시게 발전하고 있는 분야 가운데 하나가 인간의 말을 이해하는 자연어 처리 관련 부분이다.
그 의미 가운데 하나는 지금까지 기계가 이해하기 힘든 글 뭉치로 표현된 언론의 데이터도 개발하기에 따라서 구조화된 데이터로 변환하기 쉬워졌다는 것이다. 물론 굳이 변환하지 않아도 기계가 인간의 말을 이해하는 날이 머지않아 올 가능성도 있다. 하지만 아무리 기술이 놀랍게 발전한다 해도 사람의 생각마저 자동으로 바꿔주진 않으며, 생각이 바뀌지 않으면 기술은 무용지물이다. 이런 기술을 어떤 생각으로 접근하느냐에 따라 언론의 미래는 크게 달라질 것이다.
권오성 기자 sage5th@hani.co.kr
광고
기사공유하기