데이터 저널리즘 조너선 그레이 · 릴리아나 부네그루 · 루시 챔버스 엮음 정동우 옮김
대한민국, 서울, 커뮤니케이션북스, 2015
01
서론
무엇이 데이터 저널리즘인가? 그것이 가진 잠재력은 무엇인가? 한계는 무엇인가? 그것은 어디에서 오는가? 이 장에서 우리는 데이터 저널리즘이 무엇이고 언론기관에서 데이 터 저널리즘이 의미하는 것은 무엇인지를 알아볼 것이다. 폴 브래드쇼 (버밍햄시티대학교)와 미르코 로렌츠(도이치벨러: 독일의 해외방송. 30개 언어를 TV와 라디오를 통해 방송한다-역자 주)는 데이터 저널리 즘의 특징에 대해 말한다. 앞서가는 데이터 저널리스트들은 왜 이것이 중요하다고 생각하는지 그리고 그들이 가장 좋아하는 사례들은 무엇인 지 우리에게 말한다. 릴리아나 부네그루(유럽저널리즘센터)는 데이터 저널리즘을 보다 넓은 역사적 맥락에서 설명한다.
데이터 저널리즘이란 무엇인가 무엇이 데이터 저널리즘인가? 단순히 데이터로 보도하는 저널리즘이라 고 말할 수 있다. 그러나 그렇게 말해서는 큰 도움이 되지 않는다. ‘데이터’와 ‘저널리즘’은 둘 다 골치 아픈 용어다. 어떤 사람들은 ‘데 이터’를 스프레드시트에서 보는 것과 같이 숫자들의 집합이라고 생각한
1
다. 20년 전에는 저널리스트들이 다루는 데이터의 종류가 많지 않았다. 그러나 지금 우리는 거의 모든 것이 숫자로 묘사되는 디지털 세상에 살 고 있다. 당신의 경력이, 30만 개의 비밀문서가, 당신 친구들 모두가 오직 두 숫자로 묘사될 수 있다. 0과 1이다. 사진, 비디오, 그리고 오디오도 모두 똑같은 두 숫자로 묘사된다. 0와 1이다. 살인, 재난, 선거, 부패 그리고 거짓말도 마찬가지다. 0과 1이다. 무엇이 데이터 저널리즘을 나머지의 다른 저널리즘과 다르게 만드 는가? 아마도 그것은 지금 열리고 있는 새로운 가능성 때문일 것이다. 전통적인 뉴스 감각과 기사를 만들어 내는 능력을 지금 활용 가능한 엄 청난 규모와 범위의 디지털 정보와 결합할 때 생길 수 있는 그 가능성 말 이다. 그리고 이러한 가능성은 어떤 단계의 기자 경력을 갖고 있는 기자들 에게도 올 수 있다. 지방정부나 경찰 그리고 다른 취재원들로부터 정보 를 모으고 결합하는 일을 프로그래밍해서 자동화하는 일이다. 애드리안 홀로바티가 시카고 범죄(Chicago Crime, http://chicago.everyblock.com/ crime/)를 취재하면서 그리고 나중에 에브리블록(EveryBlock, http:// www.everyblock.com/)에서 한 것처럼. 혹은 ≪텔레그래프≫가 의회 의원들의 비용 지출(http://tgr.ph/ mps-expenses)을 취재하면서 한 것처럼 소프트웨어를 이용해 수십만 건의 문서 사이의 연관성을 찾아내는 것이다. 기자가 인포그래픽을 통해 복잡한 스토리를 보도하고자 할 때도 데 이터 저널리즘은 도움이 된다. 예를 들어, 한스 로슬링(Hans Rosling)이 갭마인더(http://www.gapminder.org/) 사이트에서 세계의 빈곤을 시 각화한 것은 전 세계적으로 수백만 명의 시선을 끌었다. 그리고 데이비
2
드 매캔들레스(David McCandles)가 공공비용을 맥락화하거나 아이슬 란드 화산 폭발로 인한 오염 발생을 ‘정보는 아름답다’(http://www. informationisbeautiful.net/) 사이트에서 그래픽으로 시각화한 것은 정 보 디자인의 중요성을 보여 주었다. 혹은 그것은 기사가 어떻게 개인과 관련이 있는지를 설명하는 데 도움을 줄 수 있다. BBC와 ≪파이낸셜타임스≫가 그들의 ‘버짓 인터 랙티브’라는 상호 소통 기사 코너에서 정기적으로 하고 있는 것처럼 (그곳에서 당신은 예산이 어떻게 일반 대중이 아니라 바로 당신 자신에 게 영향을 미치는지를 알 수 있다). 그리고 데이터 저널리즘은 뉴스 취 재 과정 그 자체를 공개하게 해 준다. ≪가디언≫이 그들의 데이터로그 (Datablog, http://www.theguardian.com/news/datablog)에서 독자 들과 데이터와 맥락을 공유하고, 질문을 주고받는 일을 성공적으로 하 고 있는 것처럼.
그림 1-1 당신 지역구 의원들의 비용 지출을 탐사하라, ≪가디언≫
3
데이터는 데이터 저널리즘의 원천이 될 수도 있고 기사가 만들어지 는 도구가 될 수도 있고 혹은 둘 다가 될 수도 있다. 다른 소스와 마찬가 지로 그것에 대한 회의적인 시각도 있을 수 있다. 그리고 다른 도구와 마 찬가지로 데이터는 그것으로 만들어지는 기사를 어떻게 형성하고 제약 하는지에 대해서도 우리는 알고 있어야 한다. - 폴 브래드쇼(Paul Bradshaw), 버밍햄시티대학교
기자들이 데이터를 이용해야 하는 이유 저널리즘은 포위되어 있다. 지난날 우리는 밤사이 일어난 일을 알리고 배포하는 일을 그 기술을 수행하는 오직 하나의 산업에 의존했다. 인쇄 매체가 관문 역할을 한 것이다. 만약 어떤 사람이 다음 날 아침 자신이 사는 도시나 지역의 사람들에게 무슨 일이 있었는가를 알고 싶다면 신 문을 보면 됐다. 그러한 시절은 이제 끝났다. 오늘날 뉴스는 발생하는 순간부터 다양한 소스와 목격자와 블로그 를 통해 넘쳐난다. 그리고 일어난 일은 거대한 소셜 네트워크에 의해 걸 러지고 순위가 매겨지고 비평이 가해지거나 무시된다. 이것이 데이터 저널리즘이 중요한 이유다. 눈으로 직접 볼 수 없는 곳에서 일어난 일을 모으고 거르고 시각화하는 것의 가치가 점차 커지 고 있다. 당신은 아침에 오렌지 주스나 커피를 마신다. 오늘날의 글로벌 경제 속에서 생산자와, 소비자인 당신 사이에는 눈에 보이지 않는 연결 망이 형성되어 있다. 이 네트워크에서 언어 역할을 하는 것이 바로 데이 터다. 작은 크기의 정보는 단순한 사례 속에서는 서로 관련이 없어 보이 지만 올바른 각도에서 보면 엄청난 중요성을 가진다.
4
지금 개척자적인 저널리스트들은 우리 주변에서 무슨 일이 일어나 고 있고 그 일이 우리에게 어떤 영향을 미칠 것인지에 대한 깊은 통찰을 만들어 내는 데 데이터가 어떻게 이용되는지 이미 보여 주고 있다. 데이터 분석은 ‘기사의 스토리라인’[사라 코헨(Sarah Cohen)]을 드 러내거나 사람들에게 ‘새로운 시각’[데이비드 맥캔들레스(David McCandless)]을 제공할 수 있다. 기자의 역할은 데이터를 이용해, 무엇인 가를 처음 보도하는 사람들에서 어떤 일이 실제로 어떤 의미를 가지는 가를 말해 주는 사람들 쪽으로 옮겨가고 있다. 데이터 저널리즘의 취재 대상은 범위가 넓다. 지금 이 순간 다음의 경제 위기가 만들어지고 있을 수 있으며 그것 또한 데이터 저널리즘의 취재 대상이 될 수 있을 것이다. 경제는 우리가 사용하는 상품들 뒤에 있다. 기금의 오용이나 정치적인 실책들도 데이터 시각화를 통해 논란의 여지없이 생생하게 드러낼 수 있다. 이것이 저널리스트들이 데이터를 기회로 생각해야 하는 이유이기 도 하다. 그들은 예를 들어 어떤 추상적인 위협(실업률과 같은)이 어떻 게 나이와 성별과 교육에 상관없이 모든 사람들에게 영향을 미칠 수 있 는지 데이터로 나타낼 수 있다. 데이터를 이용함으로써 무엇인가 추상 적인 것을 모든 사람들이 이해할 수 있고 자신들과 관련된 어떤 것으로 바꾸어 놓을 수 있는 것이다. 기자들은 데이터를 이용해 보다 개인화된 계산기를 만들어 사람들이 차나 집을 살 것인지, 어떤 교육이나 직업을 선택할 것인지, 또는 빚을 지 지 않기 위해 비용을 줄여야 할 것인지를 결정하는 데 도움을 줄 수 있다. 기자들은 데이터로 폭동이나 정치적인 논쟁 같은 복잡한 상황의 역 동성을 분석할 수 있고, 잘못된 점들을 보여 줄 수 있고, 사람들이 복잡 한 문제들에 대해 해결책을 모색할 수 있도록 도와줄 수 있다.
5
데이터를 검색하고 걸러내고 시각화한다는 것은 정보를 수집하는 직업 그 자체를 변형시키는 일이다. 이 일에 능숙한 기자들은 팩트와 통 찰에 바탕을 둔 기사를 만드는 것이 쉽다는 것을 경험할 것이다. 추측을 덜하고 인용을 덜하고 대신 데이터에 바탕을 둔 강한 논지의 기사를 만 들 수 있으며 이것은 저널리즘의 역할에 큰 영향을 미칠 것이다. 더구나 데이터 저널리즘에 입문하면 기자로서의 미래 전망도 좋아 진다. 오늘날 뉴스룸은 점차 축소되고 있고 대다수 기자들은 PR직으로 의 전직을 희망하고 있다. 하지만 데이터 저널리스트와 데이터 과학자 들은 이미 미디어 분야뿐만 아니라 다른 분야에서도 수요가 많은 직업 군이 됐다. 전 세계적으로 기업과 공공 조직들이 데이터를 파고들어가 이것을 손으로 만질 수 있는 무엇인가로 변형시킬 수 있는 ‘센서 메이커’ 와 전문가들을 찾고 있다. 데이터에 미래가 있다. 이것이 바로 언론사들을 흥분하게 만드는 것이며 그들이 새로운 유형의 기자를 찾도록 만드는 이유다. 예를 들면 프리랜스 기자들이 데이터를 잘 다룰 줄 안다면 새로운 채용 제안과 안 정된 보수가 제공될 것이다. 그 이유는 이렇다. 저급 콘텐츠로 지면과 웹 사이트를 빨리 채우는 기자들을 채용하는 대신, 데이터를 사용하면 독자와의 쌍방향 기사에 대한 수요를 만들어 낼 수 있고 이에 따라 계약 기간도 보다 길게 가져갈 수 있다. 이것은 미디어의 여러 분야에서 일어 나고 있는 변화다. 저널리스트들이 이러한 잠재력을 이용하게 하는 데는 하나의 장벽 이 있다. 어떤 사안에 대해 의문을 가지는 것에서부터 빅데이터를 바탕 에 둔 특종에 이르기까지 모든 과정에서 데이터를 다루는 훈련을 하는 것이다. 데이터를 가지고 일하는 것은 광대하고 잘 알려지지 않는 영역으로
6
들어가는 것과 같다. 첫 눈에 보면 원 데이터는 당황스럽다. 아직 정복 되지 않는 상태이기 때문이다. 그 단계에서 정확한 그림을 그려내기는 어렵다. 그래서 혼란스럽고 지루한 원 데이터에서 숨겨진 스토리를 ‘보 는’ 열정을 가진 경험 있는 저널리스트가 필요해지는 것이다. - 미르코 로렌츠(Mirko Lorenz), 도이치벨러
서베이 유럽저널리즘센터는 저널리스트를 더 많이 훈련시켜야 하는 필요성을 알아 내기 위한 조사를 했다(http://bit.ly/ddjnet-survey). 우리는 기자들이 전통 적인 저널리즘의 익숙함에서 벗어나 새로운 기법을 마스터하는 데 더 많은 시간을 투자하겠다는 강한 의지가 있음을 발견했다. 그러한 결과는 저널리스 트들이 데이터 저널리즘의 장점을 알고 있다는 것을 보여 준다. 그러나 그들 이 데이터로 일하는 것을 방해하는 초기 문제점들을 해결해 줄 수 있는 지원 이 필요하다. 미디어 기업에서 데이터 저널리즘이 보다 보편적으로 채택될 것이고 취재 작업의 흐름과 취재에 이용하는 도구와 취재 결과가 아주 빨리 개선될 것이라는 확신이 있다. ≪가디언≫, ≪뉴욕타임스≫, ≪텍사스트리 뷴≫ 그리고 ≪디차이트≫와 같은 개척자들은 데이터에 기반을 둔 기사 만들 기에 대한 장애물을 제거하는 작업을 계속하고 있다. 데이터 저널리즘이 몇몇 소수의 개척적인 언론사의 전유물로 남을까? 아니면 모든 뉴스기관이 조만간 그들의 데이터저널리즘팀을 두게 될까? 우 리는 더욱 많은 저널리스트와 뉴스룸이 이 떠오르는 분야의 장점을 택하게 하는 데 이 핸드북이 도움을 주기를 희망한다.
7
그림 1-2 유럽저널리즘센터의 훈련 필요성에 대한 서베이
데이터 저널리즘이 중요한 이유는 무엇인가 우리는 몇몇 데이터 저널리즘의 주도적인 실천자들과 제안자들에게 왜 데이터 저널리즘이 중요한 상황 전개라고 생각하는지를 물었다. 그들 의 대답은 이렇다.
데이터 거르기
정보가 드물 때는 우리의 노력 대부분은 정보를 찾고 모으는 데 모아졌 다. 이제 정보는 풍부해졌고 가공이 더 중요해졌다. 우리는 두 단계로 가공한다. ① 결코 끝나지 않을 데이터의 흐름에서 뉴스에 대한 감각과 정보의 구조를 찾아내기 위한 분석 ② 중요하고 정보 소비자들과 관련
8
이 있는 것을 제시하는 일. 과학과 같이 데이터 저널리즘도 방법을 밝혀 야 하고 발견된 것은 다른 사람들이 똑같은 방법으로 검증할 수 있다는 것을 제시해야 한다. - 필립 마이어(Philip Meyer), 노스캐롤라이나대학교 채플힐캠퍼스 명예교수
뉴스 스토리 만들기에 대한 새로운 접근
내 생각에는 데이터 저널리즘은 포괄적인 용어다. 그것은 진화를 계속 하고 있는 분석도구 세트와 분석 기술 그리고 이야기에 대한 접근을 포 함하고 있다. 그것은 전통적인 컴퓨터활용보도(CAR, 데이터를 ‘소스’로 사용)에서부터 가장 최근의 데이터 시각화와 뉴스 애플리케이션까지 모든 것을 포함한다. 그 통합적인 목표는 저널리스트적인 것이다. 즉, 매일 매일의 삶에서 우리에게 중요한 이슈에 대한 정보와 분석을 제공 하는 것이다. - 아론 필호퍼(Aaron Pilhofer), ≪뉴욕타임스≫
랩톱 컴퓨터로 무장한 사진 저널리즘과 같다
데이터 저널리즘은 ‘기존 저널리즘’과는 다른 도구를 사용한다는 점에 서 다를 뿐이다. 우리는 여전히 낌새를 채고 보도를 하고 기사 내용을 삶 과 결부시킨다. 이것은 ‘포토저널리즘’과 같다. 단지 카메라가 랩톱으로 바뀌었을 뿐이다. - 브라이언 보이어(Brian Boyer), ≪시카고트리뷴≫
데이터 저널리즘은 미래다
데이터 활용 저널리즘은 미래다. 저널리스트들은 데이터에 밝을 필요
9
가 있다. 이것은 지금 당신이 사람들과 바에서 대화를 나누면서 기사를 취재하는 것처럼 언젠가는 기자들에게 일상적인 것이 될 것이다. 그러 나 지금은 데이터를 파고들어야 하고 그것을 분석해 무엇인가 흥미로운 것을 찾아낼 수 있는 도구로 자신을 무장해야 한다. 그리고 데이터에 바 탕을 둔 시각으로 사람들이 어디를 바라보아야 할 것인지, 자신들의 나 라에서 무슨 일이 벌어지고 있는지를 볼 수 있도록 도와야 한다. - 팀 버너스리(Tim Berners-Lee), 월드와이드웹 개발자
숫자쟁이와 말쟁이의 만남
데이터 저널리즘은 통계 전문가와 말 전문가와의 갭을 메우는 다리다. 이상치를 제거해 내고 통계적으로는 중요하지 않을 수도 있는 트렌드를 찾아내는 것은 복잡한 오늘날의 세상을 풀어헤치는 것과 관련이 있다. - 데이비드 앤더톤(Davis Anderton), 프리랜스 저널리스트
취재 기술 업데이트하기
데이터 저널리즘은 전통적인 저널리즘의 취재 기법으로는 충분하지 않 을 때 디지털 자료를 검색하고 이해하고 비주얼화하는 새로운 기법이다. 이것은 전통 취재 기법을 대체하는 것이 아니라 보완하는 것이다. 소스가 디지털화함에 따라 기자들은 이들 소스에 더욱 가까이 갈 수 있다. 인터넷은 우리의 현재 이해 수준을 넘어서는 가능성의 세계를 열어놓았다. 데이터 저널리즘은 우리의 과거 취재 기법을 온라인에 적 용하기 시작한 것이다. 데이터 저널리즘은 언론기관의 두 가지 중요한 목적에 기여한다. 독특한 기사(통신발 기사가 아니라)를 발견하는 것과 감시견 역할을 수 행하는 것이다. 특히 금융위기의 시기에는 신문사가 달성해야 할 중요
10
한 목표가 감시 기능이다. 지역 신문의 입장에서도 데이터 저널리즘은 필수다. “자기 집 출입 문 앞의 타일이 떨어진 것은 멀리 떨어진 다른 나라에서 폭동이 일어난 것보다 중요하다”라는 말이 있다. 지역 뉴스는 당신의 삶에 보다 직접적 인 영향을 미친다. 아울러 디지털화는 모든 곳에 있다. 지역 신문사는 주민들에게 직접적인 영향력을 가지고 있고 뉴스 소스는 디지털화되어 가고 있기 때문에, 기자들은 데이터로부터 기사를 발견하고 분석하고 시각화하는 방법을 반드시 알아야 한다. - 제리 베르마넨(Jerry Vermanen), NU.nl
정보 불균형에 대한 해결책
정보 불균형-정보의 부족이 아니라, 그것이 우리에게 오는 속도와 분 량에 맞게 그것을 받아들이고 가공하는 능력이 부족한 것-은 오늘날 시민들에게 그들이 어떻게 살아야 할 것인지를 선택하는 데 있어 아주 중요한 문제 중 하나다. 인쇄와 영상 음성 미디어로부터 받은 정보는 시 민의 선택과 행동에 영향을 미친다. 좋은 데이터 저널리즘은 정보 불균 형과 싸우는 것을 돕는다. - 톰 프라이스(Tom Fries), 베텔스만재단
데이터 활용 PR에 대한 대답
측정도구의 유용성과 그 가격의 감소는-사회의 모든 측면에서 실행성 과 효용성에 초점이 맞추어진 스스로 지속하는 결합체 속에서는-의사 결정자들에게 그들 정책의 진행 과정을 정량화하고 트렌드를 모니터하 며 성공의 가능성을 알 수 있게 한다. 기업은 그들의 기업 운영 실태를 잘 측정할 수 있는 새로운 측정 방
11
법을 찾아내고 있다. 정치인들은 실업률 감소와 GDP 증가에 대해 자랑 하기를 좋아한다. 하지만 엔론과 월드콤, 매도프 혹은 솔린드라 문제에 있어서 기자적 통찰이 부족했던 것은 언론인의 무능력의 많은 부분이 숫자를 통해 분명하게 보는 능력이 없는 데서 비롯된다는 사실의 증거 다. 숫자들은 완전히 거짓일 경우에도 숫자가 가지는 심각성으로 인해 다른 팩트들보다는 더욱 액면 그대로 받아들여지는 것 같다. 기자들이 데이터를 다루는 것에 능숙해지면 숫자를 대면해서도 비 판적인 감각을 날카롭게 할 수 있을 것이다. 그러면 정부나 기업의 PR 부서에서 제공하는 자료에 대해서도 자기 본연의 비판력을 유지하는 데 도움을 받을 수 있을 것이다. - 니컬러스 카이셀-브릴(Nicolas Kayser-Bril), 저널리즘++
공식 정보를 독자적으로 해석하기
2011년 파괴적인 지진과 뒤이은 후쿠시마 원전 재앙이 있은 뒤 데이터 저널리즘의 중요성은 그때까지 그것에 대해 꾸물거리던 일본의 언론인 들에게 각인이 됐다. 우리는 정부와 전문가들이 그 사고에 대한 신뢰할 만한 데이터를 가지고 있지 않다는 것에 깜짝 놀랐다. 관리들이 SPEEDI 데이터(방사 능 물질 확산에 대한 예측)를 공개하지 않고 숨겼을 때, 우리는 그 정보 가 흘러나왔다 하더라도 해석할 준비가 되어 있지 않았다. 자원봉사자 들이 그들 자신의 기기로 방사능 데이터를 수집하기 시작했지만 우리는 통계학 지식도, 해석이나 시각화 능력도 없었다. 기자들은 원 데이터에 접근할 필요가 있고 관리들의 해석에 의존하지 않아도 되도록 배워야 한다. - 이사오 마쓰나미(Isao Matsunami), ≪도쿄신문≫
12
데이터 홍수 처리하기
디지털 혁명으로 표현되는 도전과 기회가 저널리즘을 흔들어 놓고 있 다. 정보가 풍부한 시대에는 기자들과 시민들이 똑같이 보다 개선된 도 구가 필요해진다. 중동에서 21세기에도 나돌고 있는 지하출판물을 찾 아보거나 늦은 밤 데이터 더미를 처리하거나 한 나라의 소비자들에게 수돗물의 질을 시각화해 보여 줄 가장 좋은 방법을 찾는 등에 필요한 것 이다. 우리가 이러한 데이터 홍수로 표현되는 소비 문제를 파고들수록, 새로운 미디어 플랫폼은 사람들에게 데이터를 디지털로 수집하고 공유 하는 힘을 주고 아울러 그것을 정보로 바꾸어 준다. 기자와 편집자들이 정보를 모으고 유포하는 전통적인 영역에 머물러 있는 동안 2012년 평 탄해진 정보 환경에서 돌발뉴스는 뉴스 데스크가 아닌 온라인에서 먼저 터져 나온다. 사실 지구 전체로 볼 때, 데이터와 저널리즘의 연대는 갈수록 강해 지고 있다. 빅데이터 시대에 데이터 저널리즘의 중요성은 점차 커지고 있지만 그것을 제대로 이용하는 것은 실천하는 사람들의 능력에 달려 있다. 즉, 사안의 맥락과 명확한 시각을 제공하고-아마도 가장 중요하 게는-이 세상의 엄청난 디지털 콘텐츠 속에서 진실을 찾아내는 것 이다. 그것은 오늘날 통합 미디어 기관이 중요한 역할을 다하지 않는다 는 것을 의미하는 게 아니다. 그것과는 상관이 없는 일이다. 정보 시대 에 저널리스트들은 지금보다 더욱 데이터를 수집하고 검증하고 분석하 고 종합적으로 다룰 필요가 있다. 오늘날 빅데이터, 특히 비구조화된 데이터를 잘 다루는 것은 데이 터 과학자들에게 있어 그들이 뉴스룸에서 일하든, 월스트리트, 혹은 실 리콘 밸리에서 일하든 중심 목표가 될 것이다. 특히 그러한 목표의 달성 은 증가하고 있는 분석도구 세트를 이용해야만 가능해질 것이다. 그들
13
이 정부 관련 부서의 시카고 사무실에서 일하든, 건강보험에서 일하든 혹은 언론사에서 뉴스 애플리케이션 개발자로 일하든 상관없이 그렇다. - 알렉스 하워드(Alex Howard), 오레일리미디어
우리의 삶이 데이터다
좋은 데이터 저널리즘은 어렵다. 좋은 저널리즘 자체가 어렵기 때문 이다. 그것은 데이터를 어떻게 확보할 것인지, 어떻게 그것을 이해할 것 인지, 어떻게 기사를 이끌어 낼 것인지를 궁리하는 것을 의미한다. 때로 는 막다른 골목에 도달하기도 하고 때로는 별다른 기사가 없을 수도 있 다. 무엇보다 그것이 자료를 잘 처리하기만 하면 되는 문제라면 그것은 저널리즘이 아닐 수도 있다. 하지만 우리는 삶이 점차 증가하는 데이터 가 되는 세상에 살고 있다. 따라서 자유롭고 공정한 사회를 위해 필수적 인 데이터를 잘 다루는 일은 가치 있는 일이다. - 크리스 타가트(Chris Taggart), 오픈코퍼레이츠
시간을 절약하는 길
기자들은 어떤 것을 손으로 베끼거나 PDF에 있는 데이터를 옮기는 데 소비할 시간이 없다. 그래서 그러한 작업을 대신해 줄 컴퓨터 작업을 배 우는 것은(혹은 어디서 도와줄 사람을 찾을 수 있는지를 알거나) 매우 소중한 일이다. ≪폴라데상파울루≫의 한 기자는 지역 예산을 취재하고 있었는데 우리(해커)가 상파울루시의 예산 계정을 올려준 것에 감사를 표시했다 (그것은 해커 한 사람이 이틀간 작업한 일이었다!). 그는 기사를 만들기 위해 그것을 무려 3개월 동안 손으로 베끼고 있었다고 말했다. 나는 또 한 국회를 모니터하는 뉴스기관인 콘타스 아베르타스를 위해 ‘PDF 문
14
제’를 해결해 준 것을 기억한다. 한 달 걸리는 작업을 15분 동안 15줄의 코드를 푸는 것으로 해결했다. - 페드로 마쿤(Perdo Markun), 투명한세상을위한해커
기자들의 취재 방법에서 필수인 부분
나는 ‘저널리즘’을 강조하는 것이 중요하다고 생각한다. 특히 ‘데이터 저 널리즘’의 보도 측면에서는 그렇다. 데이터 저널리즘의 훈련은 데이터 를 분석하거나 시각화하는 것 자체에만 초점을 맞추어서는 안 된다. 데 이터를 이 세상에서 벌어지고 있는 일의 진실에 보다 가까이 가는 취재 방법으로 사용해야 한다는 것이다. 나는 오늘날 기자들에게 있어서 데 이터를 분석하고 번역하는 일은 필수 능력이라고 생각한다. 그래서 기 자 훈련에서 이 부분이 분리되어서는 안 된다는 생각이다. 궁극적으로 데이터를 다루는 일은 좋은 기사를 만들어 적절한 방법으로 보도하는 일에 관한 것이다. 데이터 저널리즘은 세상을 탐사해서 설명하는 힘을 갖는 또 다른 방 법이다. 이용 가능한 데이터의 양이 크게 증가하고 있는 상황에서 이제 데이터 저널리즘에 대한 기술을 익히는 것은 기자들에게는 그 어느 때보 다 중요한 일이 되었다. 그래서 어떤 기자들에게도 데이터 처리기술은 중 요한 취재 방법이 되어야 한다. 데이터를 직접적으로 다루는 방법을 배우 든 혹은 그것을 할 수 있는 다른 사람과 공동 작업을 하든 그렇다. 데이터 저널리즘의 실제 힘은 다른 방법으로는 찾아내거나 밝혀내 기가 매우 어려운 정보를 확보하는 데 도움을 준다는 점이다. 그 좋은 사 례가 스티브 도이그의 허리케인 앤드류로 인한 피해 패턴을 분석해 낸 기사다. 그는 두 개의 다른 데이터 세트에 접근했다. 하나는 허리케인으 로 야기된 파괴의 수준을 지도에 표시한 것이고 다른 하나는 바람의 속
15
도를 알려주는 데이터다. 이것은 그에게 바람이 실제 가장 세게 분 지역 과 건물이 가장 많이 무너진 지역이 다르다는 것을 알려 줌으로써 부실 건축이 피해를 키웠다는 사실을 밝혀내게 했다. 그는 그 기사로 1993년 에 퓰리처상을 받았다(http://www.pulitzer.org/awards/1993). 이 기 사는 지금도 데이터 저널리즘이 할 수 있는 것을 보여 주는 대표적인 사 례가 되고 있다(1992년 12월 미국 ≪마이애미헤럴드≫의 보도. 그해 8 월 플로리다 지역은 허리케인 앤드류로 인해 막대한 피해를 봤는데 가 옥이 많이 붕괴한 지역은 오히려 앤드류의 풍속이 낮은 지역이었다는 것을 지도에 데이터를 맵핑하는 방식으로 보도해 그 이듬해 퓰리처상을 받았다. 스티브 도이그 기자는 현재 애리조나주립대학교 월터크롱카이 트저널리즘스쿨 교수로 재직 중이다-역자 주). 당신은 데이터를 이용해서 이상치를 제외하거나 관심 지역을 핀포 인트하거나 혹은 놀라운 것을 찾아낼 수 있다. 그러한 점에서 데이터는 길잡이가 될 수 있다. 당신은 데이터가 무엇을 의미하는지를 보도할 필 요가 있다. - 신시아 오무르추(Cynthia O'Murchu), ≪파이낸셜타임스≫
우리의 정보 환경 변화 받아들이기
새로운 디지털 기술은 사회에서 지식을 만들어 내고 퍼뜨리는 새로운 방법을 낳았다. 데이터 저널리즘은 미디어가 우리 정보 환경의 변화를 받아들이는 시도로 이해될 수 있다. 그것은 상호작용적이고, 다차원적 인 기사를 만들어 독자들이 뉴스의 바탕이 되는 데이터 소스를 직접 탐 색해 보게 하는 것도 포함된다. 그리고 독자들에게 기사를 만들어 내는 과정과 평가에도 참여하도록 유도하는 일이다. - 체사르 비아나(César Viana), 고이아스대학교
16
다른 방법으로는 볼 수 없는 것을 보는 방법
어떤 기사들은 오직 데이터를 분석하는-때로는 시각화-과정을 통해 서만 이해하고 설명할 수 있다. 힘 있는 사람들 사이의 연결망은 잘 드러 나지 않을 것이다. 의약품 정책의 잘못으로 인한 죽음도 숨겨질 것이다. 우리의 환경을 파괴하는 환경 정책은 계속될 것이다. 그러나 이러한 것 들은 기자들이 확보하고 분석하고 독자들에게 제공하는 데이터로 인해 서 바뀌게 될 것이다. 그 데이터는 기초적인 스프레드시트나 전화 통화 기록처럼 단순할 수도 있고, 혹은 학교 성적 기록이나 병원 감염 데이터 처럼 복잡할 수도 있다. 그러나 그 속에는 모두 독자들에게 이야기해 줄 가치가 있는 기사들이 포함되어 있다. - 체릴 필립스(Cheryl Phillips), ≪시애틀타임스≫
기사를 풍부하게 하는 방법
우리는 디지털 궤적을 통해 우리의 삶에 대한 온전한 그림을 그릴 수 있다. 소비하고 검색하는 것에서부터 어디를 언제 여행하는지, 좋아하 는 음악은 무엇이며, 첫 사랑은 누구이며, 아이들의 성장 모습이며, 심 지어 자신의 옛날 희망까지 알 수 있다. 그 모든 것은 추적되고 디지털화 되고 저장되고 유포된다. 이 데이터 세상은 이야기를 하고 질문에 답하 고 삶을 이해하는 일에 이용될 수 있다. 그것은 이전에 우리가 어떤 사건 들을 가장 열심히 조심스럽게 복구해 내던 것을 훨씬 능가하는 방법으 로 그려낸다. - 사라 슬로빈(Sarah Slobin), ≪월스트리트저널≫
17
특종을 만드는 데 새로운 데이터가 있어야 하는 것은 아니다 때때로 데이터는 이미 공개되고 누구나 이용 가능하게 되어 있지만 아 무도 조심스럽게 살펴보지 않는다. AP가 보도한 4500쪽의 비밀 해제 문 서가 그렇다. 그것은 이라크전쟁 동안 사설 보안 업체들의 행동을 묘사 한 것이다. 그 자료는 한 프리랜서 저널리스트가 7년에 걸쳐 정보자유 법을 이용해 국무부에 자료요청을 해서 확보한 것이다. 국무부는 그 문 서를 스캔해서 문서 클라우드에 업로드했다. 그래서 우리는 그것을 포 괄적으로 분석할 수 있었다. - 조너선 스트레이(Jonathan Stray), 오버뷰프로젝트
즐겨 인용되는 몇몇 사례들 우리는 몇몇 기고자들에게 그들이 가장 내세우고 싶은 데이터 저널리즘 의 사례와 그 사례의 무엇을 좋아하는지 보내달라고 요청했다. 다음은 그들이 보내온 사례다.
≪라스베이거스선≫의 ‘손상이 없게 하라’ 시리즈
내가 가장 좋아하는 사례는 ≪라스베이거스선≫이 2010년에 병원의 치 료에 대해 보도했던 ‘손상이 없게 하라(Do No Harm)’ 시리즈다(htttp:// www.lasvegassun.com/hospital-care/). 그 신문은 290만 건의 병원 청 구 기록을 분석해서 3600건 이상의 예방 가능한 손상과 감염, 수술 실수 를 밝혀냈다. 그들은 그 데이터를 공공 기록에 대한 정보 청구를 통해 확 보했으며 300건 이상에서 환자들이 예방할 수도 있었던 실수로 목숨을
18
잃었다는 것을 확인해 냈다. 그 기사는 여러 가지 다른 요소들을 포함하고 있다. 그중에서 상호 작용 그래픽(http://bit.ly/lvsun-surgery)은 독자들에게 그 병원의 어 디에서 수술에 의한 손상이 다른 곳보다 많이 발생하는지를 볼 수 있게 해 준다. 시간표가 첨부된 지도(http://bit.ly/lvsun-infections)는 병원 의 실수로 감염이 병원 내에 퍼지는 것을 보여 준다. 상호작용 그래픽 (http://bit.ly/lvsun-events)은 이용자들이 예방 가능한 손상별로 데이 터를 분류해서 어디서 사람들이 손상을 입는지 볼 수 있게 한다. 나는 그 기사가 매우 이해하기 쉽고 직접 해 볼 수 있게 만들어져 좋 아한다. 이용자들은 그 데이터를 매우 직관적인 방법으로 탐험할 수 있 다. 그 기사는 또한 실제적인 효과를 가져왔다. 네바다 주의회는 이와 관련된 6개의 법률(http://bit.ly/lvsun-milestone)을 만들었다. 관련 기
그림 1-3 손상이 없게 하라, ≪라스베이거스선≫
19
자들은 데이터를 확보하고 정리하는 데 매우 많은 노력을 했다. 알렉스 리처드스같은 기자는 실수를 바로잡기 위해 그 데이터를 적어도 12번 (http://bit.ly/poynter-webgold) 이상 병원과 주정부에 보냈다. - 안젤리카 페랄타 라모스(Angélica Peralta Ramos), ≪라나시옹≫(아 르헨티나)
정부 공무원 월급 데이터베이스
나는 작은 독립 언론기관이 매일 해나가는 일을 좋아한다. 예를 들면, 리안 머피같은 뛰어난 데이터 기자를 가진 ≪프로퍼블리카≫나 ≪텍 사스트리뷴≫ 같은 언론기관이 그렇다. 만약 내가 선정을 한다면, 나는 ≪텍사스트리뷴≫의 정부 공무원 월급 데이터베이스 프로젝트(http://
그림 1-4 공무원 임금, ≪텍사스트리뷴≫
20
bit.ly/texastrib-employee)를 들겠다. 이 프로젝트는 66만 건의 정부 공 무원 월급을 하나의 데이터베이스에 모아 이용자들이 검색하고 이야기 를 만들어 낼 수 있도록 했다. 당신은 기관, 이름 혹은 월급액수별로 검색할 수 있다. 그것은 간단 하고 의미 있고 일반인이 접근하기 어려운 정보로 만들어졌다. 이것은 이용하기 쉽고 자동적으로 기사를 만들어 낸다. 이것은 왜 ≪텍사스트 리뷴≫이 데이터를 이용해서 만든 기사에서 가장 많은 트래픽을 얻어내 는지를 설명하는 좋은 사례다. - 사이먼 로저스(Simon Rogers), ≪가디언≫
AP에 의한 이라크전쟁 일지의 풀 텍스트 시각화
조너선 스트레이와 줄리언 버게스의 이라크전쟁 일지에 대한 기사 (http://bit.ly/jstray-warlogs)는 실험적인 기술을 사용하여 텍스트 분석 과 시각화를 시도한 고무적인 작업이다. 그것은 통찰을 얻기 위해 커다 란 맥락적 데이터 묶음을 파헤친 것이며 그 주제는 앞으로 더욱 개척할 가치가 있는 주제임을 보여 주었다. 텍스트 분석 기술과 알고리즘으로 조너선과 줄리언은 위키리크스 에 의해 누출된 수천 건의 이라크전쟁과 관련된 미국 정부 보고서에 담 겨 있는 키워드 덩어리를 시각적으로 보여 주는 방법을 만들어 냈다. 비록 이 방법에는 한계가 있고 또 그 작업은 실험적인 것이기는 하지 만, 신선하고 혁신적인 접근이다. 전체 기록을 다 읽기에는 너무 분량이 많다. 그리고 특정 키워드를 입력하고 그 결과를 보는 식으로 하면 무엇이 발견될 것인지에 대한 사전 개념을 가지고 전쟁 기록을 읽게 된다. 하지만 이 기술은 특정 관련 분야에 대한 주제나 키워드를 찾아내 시각화해 준다. 공공 분야에서 텍스트(이메일, 보고서 등)와 숫자로 된 데이터가 증
21
그림 1-5 전쟁 일지 분석, AP
22
가함에 따라 특정 흥미 영역을 찾아내는 방법은 앞으로 더욱 중요해질 것이다. 이것은 데이터 저널리즘의 재미있는 하위 분야다. - 신시아 오무르추(Cynthia O'Murchu), ≪파이낸셜타임스≫
살인 미스터리
내가 좋아하는 데이터 저널리즘 사례 중 하나는 ≪스크립스하워드≫ 뉴 스 서비스의 톰 하그로브가 만든 살인 미스터리 프로젝트(http://bit.ly/ murder-mysteries)다. 그는 정부 데이터와 공공 기록에 대한 정보 공개 청구를 이용해 확보한 데이터로 18만5000건 이상의 미해결 살인을 인 구통계학적으로 세분한 데이터베이스를 구축했다. 그리고 연쇄 살인범 의 존재 가능성을 시사하는 패턴을 찾을 수 있는 알고리즘을 디자인해 냈다. 이 프로젝트에는 데이터 저널리즘의 모든 것이 들어 있다. 어려운 작업이었지만 정부 데이터베이스보다 나은 데이터베이스, 사회 과학 기 술을 사용하는 명석한 분석, 그리고 독자들이 스스로 탐색해 볼 수 있도 록 온라인에서 데이터를 상호작용적으로 나타내고 있다. - 스티브 도이그(Steve Doig), 애리조나주립대학교 월터크롱카이트 저널리즘스쿨
메시지 기계
나는 ≪프로퍼블리카≫의 메시지 기계 이야기(http://bit.ly/messagemachine)와 바보 블로그(http://bit.ly/nerd-blog-post)를 좋아한다. 이 것은 몇몇 트위터들이 오바마 선거본부로부터 내용이 다른 이메일을 받 은 데 대해 호기심을 표현한 데서 시작됐다. ≪프로퍼블리카≫의 기자 들은 독자들에게 이를 알리고 그들이 선거본부로부터 받는 이메일을 전 달해 달라고 요청했다.
23
그림 1-6 살인 미스터리들, ≪스크립스하워드≫ 뉴스서비스
24
그림 1-7 메시지 기계, ≪프로퍼블리카≫
그날 저녁에 보내 온 이메일의 선거 메시지들은 우아하면서 시각적 으로 달랐다. 그 메시지들은 수취인 각자에 대한 데이터(작은 샘플들이 지만 메시지를 전달하기에는 충분한)를 담고 있어 놀라웠다. 더구나 그 것은 최근에 일어났던 일에 대한 이야기를 하고 있어서 더욱 놀라웠다. 선거 유세에서 특정한 개인에게 맞는 메시지를 전달하기 위해 빅데이터 가 사용된 것이다. 이것이 바로 앞으로 나타날 상황에 대한 맛보기다. - 브라이언 보이어(Brian Boyer), ≪시카고트리뷴≫
차트볼(순위 표시 공)
내가 좋아하는 데이터 저널리즘 프로젝트 중 하나는 앤드류 가르시아 필립스의 차트볼(http://www.chartball.com/)이다. 앤드류는 데이터
25
그림 1-8 승리와 패배 도표화하기, 차트볼
에 대한 게걸스러운 식욕과 디자인에 대한 놀라운 안목 그리고 정보를 기호로 만드는 능력을 갖춘 대단한 스포츠팬이다. 차트볼과 함께 그는 경기기록뿐만 아니라 개별 선수와 팀의, 승리와 패배의 구체적인 내용 까지 시각화하고 있다. 그는 맥락을 만들고 있다. 그는 눈길을 끄는 그 래픽을 만들고 있으며 그의 작품은 깊이가 있고 흥미롭다. 내가 스포츠 에 대해 크게 관심이 없는데도 그렇다. - 사라 슬로빈(Sarah Slobin), ≪월스트리트저널≫
26
데이터 저널리즘 전망 2010년 8월에 유럽저널리즘센터의 동료들과 나는 우리가 알기에는 첫 번째인 ‘국제 데이터 저널리즘 콘퍼런스’(http://bit.ly/ddj-conf)를 암스 테르담에서 개최했다. 그때까지 이 주제에 대해서는 큰 논의가 없었고 이 분야에서는 단지 그들의 작업으로 널리 알려져 있는 몇몇 조직이 있 었을 뿐이다. 위키리크스에 공개된 엄청난 양의 데이터를 다루는 ≪가디언≫과 ≪뉴욕타임스≫와 같은 언론기관의 태도는 이 용어가 유명해지는 중요 한 계기가 되었다. 그 즈음해서 그 용어는 저널리스트들이 그들의 취재 활동을 개선하고 주어진 주제에 대한 심층 탐사보도를 강화하기 위해 데이터를 어떻게 사용해야 하는지를 설명하기 위해 보다 널리 사용되기 시작했다(‘컴퓨터활용보도’라는 말과 함께). 경험 있는 데이터 저널리스트와 저널리즘 학자에 대해 말하자면 (http://bit.ly/smfrogers-status), 아마도 아드리안 홀로바티가 그 중 하 나가 될 것이다. 그가 2006년에 쓴 글은 지금 우리가 데이터 저널리즘이 라고 인정할 수 있는 것을 언급한 초기의 글 중 하나가 될 것이다. 그는 ‘에브리블록(EveryBlock)’의 설립자로 이 사이트는 이용자가 그들의 지역과 그들이 사는 블록에서 일어난 일을 찾아볼 수 있게 하는 정보 서 비스다. 그는 당시 “신문 사이트가 변해야 하는 근본적인 이유”(http:// www.holovaty.com/writing/fundamental-change/)라는 짧은 에세이에 서 저널리스트들은 전통적인 취재 자료인 텍스트뿐만 아니라 구조화되고 기계가 읽을 수 있는 데이터로 된 기사도 만들어 내야 한다고 주장했다.
지역의 화재를 다룬 신문 기사를 예로 들어봅시다. 이 기사를 휴대전화
27
로 읽을 수 있게 하는 것은 멋진 일이지요. 그러나 독자들이 정말로 할 수 있기를 원하는 것은 그 기사의 원 자료를 탐색하는 것입니다. 하나 하나씩, 원인이 되는 층을 뒤져 가며, 그 화재와 이전의 화재를 구체적 인 내용까지 비교해 볼 수 있는 하부구조를 찾기 원하는 것이죠. 일시, 시간, 장소, 희생자들, 소방서 숫자, 소방서로부터의 거리, 그 현장에 출 동했던 경험 있는 소방관의 이름과 근무경력, 소방차가 도착할 때까지 의 시간, 그리고 그 뒤에 일어난 후속 화재까지.
그러나 무엇이 이런 저널리즘을 데이터베이스나 컴퓨터를 이용하 는 다른 형태의 저널리즘과 다르게 만드는가? 데이터 저널리즘과 과거 부터 있어 왔던 다른 형태의 저널리즘과의 차이를 만드는 방법과 정도 는 무엇인가?
컴퓨터활용보도와 정밀 저널리즘
기사의 질을 높이고 대중에게 구조화된 정보를 전달하기 위해 데이터를 사용하는 것은 역사가 오래됐다. 지금 우리가 데이터 저널리즘이라고 부르는 것과 가장 직접적으로 관계가 있는 것은 컴퓨터활용보도(CAR)일 것이다. 그것은 뉴스를 향상시키기 위해 데이터를 수집하고 분석하는 데 컴퓨터를 사용하자는 시스템적 접근으로 처음 조직되었다. CAR라는 말은 1952년 대통령 선거 결과를 예측하면서 CBS에서 처 음 사용되었다. 1960년대 이후(주로 미국을 중심으로 한 탐사보도에 서), 기자들은 공공 기록에 대한 데이터베이스를 과학적인 방법으로 분 석하면서 권력을 독립적으로 감시하는 방안을 모색했다. ‘공공 서비스 저널리즘’으로도 알려진 이 취재 기법은 컴퓨터활용보도 기술에 대한 옹호자들이 트렌드를 밝혀내고, 널리 알려진 지식의 허점을 폭로하고
28
정부와 사기업에 의해 저질러지는 불의를 폭로하기 위해 추구했던 것 이다. 예를 들면, 필립 메이어는 1967년 디트로이트 폭동이 널리 알려진 것처럼 덜 교육 받은 남부 지방 출신 사람들이 주로 참여해 일어난 것이 아니라는 것을 밝히려고 노력했다. 1980년대 빌 데드만의 “돈의 색깔”이라는 기사는 주요 금융 기관의 대출 정책에 시스템적으로 인종차별이 있다는 것을 폭로했다. 1990년 대 초 스티브 도이그는 허리케인 앤드류로 인해 입은 피해의 유형을 분 석하는 기사인 ‘무엇이 잘못되었나’에서 피해의 원인이 결함이 있는 도시 개발 정책과 개발업자들 때문이라는 것을 밝혀냈다. 데이터 지향적 보도 는 가치 있는 공익적 기여를 낳았고 기자들은 유명한 상을 많이 받았다. 1970년대 초에는 이러한 기사 취재 유형을 묘사하기 위해 정밀 저널 리즘이라는 용어가 생겨났다. “저널리즘의 실천에 사회학과 행동과학
연구방법론을 적용”한 것이다(필립 마이어의 ‘새로운 정밀 저널리즘’에서 인용. http://bit.ly/precision-journalism). 정밀 저널리즘은 주로 언론 기관에서 저널리즘과 사회과학으로 훈 련된 기자들에 의해 수행되는 것을 목표로 했다. 그것은 보도에 픽션적 인 기술이 적용되는 저널리즘의 한 형태인 ‘뉴 저널리즘’에 대한 반작용 으로 생겨났다. 마이어는 객관적 진실의 추구라는 저널리즘의 목표를 위해서는 문학적 기법 대신 데이터 수집과 분석이라는 과학적인 기법이 필요하다고 주장했다. 정밀 저널리즘은 저널리즘이 흔히 비판받는 비타당성과 나약성 에 대한 반작용으로 이해될 수도 있다. 보도자료에 대한 의존(뒤에 churnalism으로 묘사된다. churnalism은 증권 수수료를 챙기기 위해 부당한 회전매매를 하는 것을 뜻하는 churn과 journalism의 합성어로 마구 베끼는 기사를 의미한다-역자 주), 당국의 정보에 대한 편견적 의
29
존 등이다. 이러한 것은 마이어가 지적하듯이 정보 과학 기술이나 여론 조사, 공공 기록의 확보 등과 같은 과학적 방법론이 적용되지 못해 생 겨난다. 정밀 저널리즘은 1960년대부터 사회적 취약계층과 그들의 이 야기를 대변하기 위해 이용되었다. 마이어(http://bit.ly/p-meyer)에 따 르면,
정밀 저널리즘은 기자들이 예전에는 접근이 불가능했거나 혹은 피상적 으로 접근할 수밖에 없었던 취재 대상에 대한 취재 방법을 확장시키는 것이었다. 그것은 특히 소수 그룹과 의견을 달리하는 그룹의 말을 듣기 위한 유용한 방법이었다.
1980년대에 발표된 저널리즘과 사회과학의 관계에 대한 영향력 있는 한 논문(http://bit.ly/oxford-influential)은 데이터 저널리즘을 둘 러싼 현재의 논의에까지 영향을 미친다. 저자들은 두 명의 미국 저널리 즘 교수로 그들은 1970년대와 1980년대부터 뉴스에 대한 대중의 이해 는 ‘뉴스 이벤트’라는 좁은 개념에서 ‘상황 보도’(혹은 사회적 트렌트에 대한 보도)라는 개념으로 넓어질 것이라고 주장했다. 예를 들면, 인구조 사나 사회조사 데이터의 데이터베이스를 이용해야 기자들은 ‘특정 사건 의 단편적인 보도를 넘어 그것들이 의미하는 맥락을 제공하는 쪽으로 옮겨갈 수 있다’는 것이다. 우리가 예상할 수 있듯이, 보도 내용을 향상시키기 위해 데이터를 사용하는 것은 주변에서 데이터를 발견할 수 있었던 시기까지 거슬러 간다. 사이먼 로저스가 지적했듯이(http://bit.ly/facts-are-sacred), 데 이터 저널리즘의 첫 번째 사례는 1821년 ≪가디언≫의 기사다. 그것은 맨체스터에서 각 학교에 등록된 학생 숫자와 출석자 수 그리고 개별 학
30
그림 1-9 1821년 ≪가디언≫의 데이터 저널리즘
그림 1-10 플로렌스 나이팅게일의 영국 군인 사망률, 위키피디아
31
교의 비용에 대한 도표다. 로저스에 따르면, 그것은 무상 교육을 받은 실제 학생 수에 대한 기사로 공식적인 숫자보다는 매우 많았다. 유럽의 또 다른 초기 사례는 1858년에 나온 플로렌스 나이팅게일의 보고서 ‘영국 군인 사망률’(http://bit.ly/mortality-army)이다. 의회에 보낸 그녀의 보고서에서 나이팅게일은 영국 군인의 의료 서비스 개선을 주장하기 위해 그래픽을 사용했다. 가장 유명한 것이 그녀의 ‘맨드라미’ 인데 매달의 사망자 숫자를 나타내는 나선형 그래픽이다. 그 그래픽은 총에 맞아 죽는 군인보다 예방할 수도 있는 질병으로 인한 사망자 숫자 가 압도적으로 많다는 것을 보여 주었다.
데이터 저널리즘과 컴퓨터활용보도
‘데이터 저널리즘’이라는 명칭과 그 이전의 데이터 묶음들을 분석하기 위해 컴퓨터 기술을 이용하는 저널리스트적 취재 기법과의 관계를 둘러 싸고 ‘지속성과 변화’ 논쟁이 있다. 어떤 사람들은 CAR(컴퓨터활용보도)와 데이터 저널리즘은 다르다 고 주장한다. 그들은 CAR는 보도를 강화하기 위해(일반적으로 탐사보 도) 데이터를 수집하고 분석하는 것인 반면 데이터 저널리즘은 모든 저 널리스트적인 업무에서 데이터에 관심을 기울이는 것이라고 말한다. 이러한 측면에서 데이터 저널리즘은 단순히 기사를 찾아내거나 보 강하는 수단으로 데이터를 이용하는 것보다는 데이터 그 자체에 많은때때로 보다 많은- 관심을 보인다. 그래서 우리는 ≪가디언≫ 데이터블 로그나 ≪텍사스트리뷴≫이 기사 옆에 데이터 세트를 배치해-혹은 데 이터 세트 그 자체만으로-사람들이 분석하거나 탐색하게 하는 것을 중 시한다. 또 다른 차이점은 과거에 있다. 탐사보도 기자들은 그들이 답을 찾
32
아내고자 하는 문제 또는 그들이 초점을 맞추는 이슈와 관련된 정보의 부족으로 곤란을 겪었다. 이러한 일은 지금도 있지만, 지금은 기자들이 반드시 알려고 하지도 않는 압도적으로 풍부한 정보들이 널려 있다. 그 들은 데이터로부터 가치를 이끌어 내는 방법을 모른다. 이에 대한 최근 의 사례가 영국의 가장 큰 소비 정보 데이터베이스인 통합 온라인 정보 시스템이다. 그 데이터베이스는 오랫동안 투명성을 추구해 왔으나 너 무 많은 보도자료로 기자들을 짜증스럽고 당황스럽게 했다. 필립 마이 어가 최근 나에게 썼듯이 “정보가 드물었을 때는 우리 대부분의 노력이 정보를 찾고 모으는 데에 집중되었다. 이제는 정보가 풍부하기 때문에 가공하는 것이 더 중요하게 되었다.” 한편 어떤 사람들은 데이터 저널리즘과 컴퓨터활용보도 사이에는 의미 있는 차이가 없다고 주장한다. 이제는 계속 새로운 것이 나옴에 따 라 가장 최근의 미디어 실천조차도 역사가 되고 있다는 것이 보편적인 인식이다. 데이터 저널리즘이 온전히 새로운 것이냐 아니냐에 대한 논 쟁보다는 그것을 새 환경과 조건 속에서만 생각하지 말고 보다 오래된 전통 속의 한 부분으로 생각하는 것이 유익한 자세가 될 것이다. 설혹 그 것이 목표와 기술에서 다르다 하더라도 21세기의 시작 시점에서 ‘데이 터 저널리즘’이라는 용어가 등장하는 것 자체가 의미 있는 일이다. 그것 은 온라인에서 엄청난 분량의 데이터를, 그것도 복잡한 사용자 중심의 도구와 자기 출판과 크라우드소싱 도구와 결합된 데이터를 자유롭게 이 용할 수 있다는 새로운 국면을 나타낸다. 이것은 더욱 많은 사람들이 더 욱 많은 데이터를 이전보다는 더욱 쉽게 이용할 수 있게 해준다.
데이터 저널리즘은 대규모 데이터 사용법에 관한 것이다
디지털 기술과 웹은 정보가 출판되는 방식을 근본적으로 바꾸고 있다.
33
데이터 저널리즘은 데이터 사이트와 데이터 서비스들을 둘러싸고 생겨 난 분석 도구와 실천으로 구성된 생태계의 한 부분이다. 소스 자료를 인 용하고 공유하는 것은 웹의 하이퍼링크 구조의 본질 속에 포함되어 있 는 것이다. 그리고 우리는 오늘날 인터넷의 바다를 항해하는 데 익숙해 져 있다. 좀 과거로 돌아가 보면, 웹의 하이퍼링크 구조에 있는 원칙은 학술 논문에서 사용되는 인용 원칙이다. 기사 뒤에 있는 원 자료와 데이 터를 인용하고 공유하는 일은 데이터 저널리즘이 저널리즘을 발전시킬 수 있는 근본적인 방법의 하나다. 그것은 위키리크스의 설립자 줄리언 어산지가 말한 ‘과학 저널리즘’이다. 데이터 저널리즘은 누군가로 하여금 데이터 자료를 파고들어가 그 들과 관련이 있는 정보를 발견하게 하고 주장을 증명하고 널리 받아들 여지던 가정에 의문을 제기하는 것이다. 데이터 저널리즘은 예전에는 탐사보도 기자, 사회과학자, 통계학자, 분석가, 혹은 다른 전문가 등 특 별한 사람들에 의해 사용되던 자원과 도구와 기술 그리고 방법론을 효 과적으로 일반 대중에게 보여 줄 수 있다. 현재까지는 데이터 저널리즘에서 원 자료에 대한 인용과 링크가 특 별한 일이지만, 우리는 데이터가 미디어라는 섬유 속으로 이음새 없이 섞여 들어가는 세상으로 옮겨가고 있다. 데이터 저널리스트들은 독자 들이 데이터를 이해하고 탐구하는 장벽을 낮추도록 하고 데이터 이용을 크게 높이도록 도와야 하는 중요한 역할을 담당하고 있다. 스스로를 데이터 저널리스트라고 부르는 사람들에 의해 이제 막 생 겨나려는 공동체는 보다 성숙해 있는 CAR 공동체와는 많이 다르다. 하 지만 앞으로 우리는 두 공동체가 강한 연대를 이루는 것을 보게 될 것 이다. 그것은 NGO와 ≪프로퍼블리카≫와 같은 시민 미디어 그리고 탐 사보도 단체가 전통적인 뉴스 미디어들과 손잡고 탐사보도 활동을 하는
34
것과 마찬가지다. 데이터 저널리즘 공동체는 데이터를 전달하고 기사 를 내보는 데 보다 혁신적인 방법을 가질 수도 있지만 깊이 분석하고 비 판적으로 접근하는 CAR 공동체에서 무엇인가를 배울 만한 것이 있을 것이다. - 릴리아나 부네그루(Liliana Bounegru), 유럽저널리즘센터
35