커뮤니케이션이해총서
데이터 저널리즘 임종섭
대한민국, 서울, 커뮤니케이션북스, 2015
01 데이터의 성격
일상 담론에서 빈번하게 등장하는 데이터의 어원을 살펴보고 디지털 환경에서 빅데이터는 구체적으로 어떤 데이터를 의미하는가를 논의한다. 빅데이터 현상을 공적 주체인 정부와 사적 주체인 기업, 국민으로 구분해 진단한다. 빅데이터 현상을 데이터가 생산되고 유통되며 소비되는 환경에서 다루고, 정부의 데이터 공개와 양질의 공적 데이터 제공이라는 차원에서 데이터 개념을 재정의한다.
빅데이터 데이터(data)는 최근 정부와 학계, 언론뿐만 아니라 우리 일상에서 활발하게 쓰는 유행어다. 유행어라고 한 것은 현재처럼 데이터 수집, 분석, 활용 등에 관한 담론이 강세 를 보이는 경우가 역사적으로 드물기 때문이다. 그만큼 우리 사회는 데이터의 가치에 새롭게 주목하고 있으며, 정 부, 기업, 국방, 교육, 문화 등 관련 분야에서 ‘빅데이터 (big data)’ 현상이 일면서 데이터 자체의 의미가 중요해지 고 있다. 빅데이터 현상을 파악하기 위해서는 먼저 데이터의 어원 을 살펴볼 필요가 있다. 데이터는 “주어진 것(thing given)” 이라는 의미인 라틴어 “데이텀(datum)”의 복수형이며 1646년에 처음 쓰였다. 전송 가능하고 저장할 수 있는 컴 퓨터 정보라는 의미로 1946년에 등장했으며 계산하거나 측정하는 데 기초가 되는 내용을 뜻한다(Harper, 2014; Merriam-Webster, 2014). 이 맥락을 고려할 때, 관심을 끄는 개념은 빅데이터다. 빅데이터는 그동안 수집과 이용, 분석에 적용해 온 방법으 로는 진단할 수 없는 방대한 크기의 데이터를 뜻한다 (Tien, 2013). 구체적으로 빅데이터는 재무제표 기록, 콜 센터 기록 등 전통적인 정보원이나 디지털 정보원에서 발
2
생하며 빅데이터의 유형은 트윗글이나 게시글처럼 텍스 트를 바탕으로 한 구조화되지 않은 자료와 웹 로그 데이터 처럼 텍스트와 시각적 이미지가 합쳐서 다층적으로 구조 화된 자료로 구분한다(Arthur, 2013). 빅데이터의 의미를 실감할 수 있는 예로 마이크로소프 트의 엑셀 2013 분석 프로그램이 최대로 처리할 수 있는 열의 수와 행의 수를 보면 흥미롭다. 열은 104만8576개가 최대이며 행은 1만6384개가 최대다(Microsoft, 2014). 전 국 대형 체인점에서 고객들이 거래한 전체 구매 자료와 고 객 명단 규모는 200만 명이 넘을 것이며 이 데이터는 엑셀 2013으로 처리할 수 없는 방대한 양이다(Jacobs, 2009). 빅데이터는 디지털 환경에서만 일어나는 현상은 아니 다. 해당 시점에서 상용화된 데이터 처리 기술로 분석할 수 없는 데이터는 빅데이터라고 할 수 있다. 현재 시점에 서 빅데이터는 규모가 상상을 초월해 수천 개의 서버를 통 해 다수의 소프트웨어로 분석해야 하는 데이터라고 정의 할 수 있다(Jacobs, 2009). 데이터 규모가 커지는 현상은 일상생활의 경험에서도 쉽게 찾아볼 수 있다. 사람들의 소통이 대면 방식 못지않 게 웹이나 모바일 공간을 매개로 이루어지면서 이 과정에 서 방대한 규모의 데이터가 발생하고 있다. 가령, 페이스
3
북이나 트위터, 밴드 등 소셜 매체에서 발생하는 글들을 일정 기간에 수집할 경우 그 양은 엄청날 것이다. 디지털 데이터의 크기는 킬로바이트(KB), 메가바이트(MB), 기가 바이트(GB), 테라바이트(TB), 페타바이트(PB), 엑사바이 트(EB), 제타바이트(ZB), 요타바이트(YB)로 측정하며 단 위별로 대략 1000배씩 차이가 난다. 기가바이트는 메가바 이트의 1000배, 테라바이트는 메가바이트의 100만 배, 페타 바이트는 메가바이트의 10억 배 등으로 비교한다(Farrell, 2013). 예를 들어, 구글 웹사이트는 하루에 24페타바이트 의 데이터를 처리한다. 또한 전자상거래의 발전으로 매년 테라바이트의 데이터가 생겨나고 있으며(Foley, 2013), 물리학 실험실, 소매 거래, 보안 카메라, 위치추적 시스템 등 각종 사회 공간에서 매년 4제타바이트의 디지털 데이 터가 발생하고 있다(Tien, 2013). 국내의 경우, 카카오톡으로 주고받는 문자, 뉴스 홈페이 지에 실리는 댓글, 블로그의 게시글 등 방대한 규모의 소셜 매체 콘텐츠는 이용자들의 생각과 태도, 행동 양식을 상상 하지 못할 수준으로 자세하게 보여 주는 데이터로 가치를 갖는다. 소셜 매체에 유통되는 데이터를 분석해 제공하는 소셜 매트릭스 관련 업체들이 이미 등장하고 있어 데이터의 생산, 유통, 소비라는 구조적 환경을 점검할 필요가 있다.
4
데이터 생산, 유통, 소비 환경 데이터의 생산, 유통, 소비 과정을 보면 데이터가 우리 생 활에서 차지하는 비중이 상당함을 짐작할 수 있다. 먼저 공적 부문과 사적 부문으로 나누어 데이터의 생산 주체를 구분할 수 있다. 이 구분은 복잡한 현상을 단순화한다고 지적할 수 있으나 데이터 환경을 진단하는 데 도움이 될 수 있다. 공적 부문에는 정부와 산하 기관이 있다. 청와대, 각 부 처를 비롯한 행정부, 국회와 정당, 법원과 검찰은 방대한 분량의 데이터를 생산하고 있다. 안전행정부와 한국정보 화진흥원은 ‘공공데이터포털(www.data.go.kr)’을 통해 행정기관, 자치행정조직, 교육조직, 입법조직, 교육기관, 공공기관, 위원회와 경제자유구역청에서 만든 자료를 공 개하고 있는데, 이 사이트에 접속하면 관련 내용을 상세하 게 확인할 수 있다. 사적 부문에서 기업과 대학, 병원 등은 제품 생산과 유 통, 금융 거래, 운영 자료, 병원 진료 기록 등 다량의 데이 터를 만들고 있다. 미국의 경우 서비스업, 제조업, 건축업, 농업, 탄광 부문에서 발생하는 빅데이터를 분석하는 연구 들이 진행되고 있다(Tien, 2013). 국민들은 휴대폰 문자, 소셜 매체에 남긴 댓글, 게시글, 사진과 동영상 등의 형태
5
로 개인적 내용의 데이터를 생산하고 있다. 정리하면 정부는 ‘열린 데이터’ 정책을 추진하면서 관련 내용을 엑셀파일(XLS), 액세스파일(MDB), HTML, PDF 등으로 저장해 제공하고 있다. 기업과 병원, 대학은 공시 자료로 운영 실적을 발표하고 있으며, 국민들은 자신들이 쓴 글들을 소셜 매체로 유통시키고 있다. 이들 데이터의 소비자는 공적 부문 주체와 사적 부문 주체를 포함한다. 정부와 국회는 정책 효과를 파악하기 위해 국민들의 반응을 분석한 자료를 원하며 기업은 잠재 고객들의 성향과 변화를 담은 자료를 수집하고 분석한다. 국민들은 정부와 기업 등에 정보 공개를 요청해 데이터를 수집하며, 소셜 매체에 유통되는 정보를 나름대로 진단한 다. 이들 주체들은 각기 독자적인 영역을 구축하고 데이터 를 생산하는 동시에 다른 주체들이 수집한 자료에 접근하 고 이를 소비하는 복잡한 관계를 형성하고 있다고 하겠다. 빅데이터 생산과 유통, 소비가 복잡하게 진행되는 상황 에서 데이터의 의미를 새롭게 정의할 필요가 있다. 데이 터를 활용과 이익이라는 도구 차원에서 접근하는 정의는 현재의 복잡한 구조에 잘 맞지 않는다.
6
데이터의 재정의 데이터는 정치, 사회, 경제, 문화 등 관련 영역에서 주체들 이 고유한 활동을 하면서 발생시키는 결과물로 다른 주체 들이 필요한 내용을 담고 있으며, 민주사회와 건강한 시민 성을 확보하는 데 활용할 수 있는 가치를 포함하고 있다. 특히, 관심을 끄는 데이터는 정부와 관련 영역에서 생산하 는 공공 데이터로 개인 정보를 담은 사적 데이터는 논의 대상이 아니다. 국외에서 일고 있는 데이터 공개 선언(Global Open Data Initiative, 2014)은 다음과 같은 일곱 가지 사항을 각국 정부 에 요구한다. 첫째, 정부는 자료를 있는 그대로 공개하라. 둘째, 데이터 공개를 이용자 중심에서 접근하라. 셋째, 데 이터 접근을 무료로 허용하라. 넷째, 데이터 공개에 책임 있는 자세로 임하라. 다섯째, 데이터 생산과 유통에 투자 하고 공무원들을 훈련시켜라. 여섯째, 정부 데이터의 질 을 개선하라. 일곱째, 공개적이고 투명하며 참여하는 행 정이 되도록 법과 제도를 마련하라. 따라서 빅데이터와 데이터 공개의 흐름은 우리가 알고 있는 데이터의 성격을 완전히 바꿔 놓는 현상이다. 특정 주체들이 수집해 내부에서만 이용하는 폐쇄적인 데이터 가 아니라 국민 생활과 사회 운영에 영향을 주는 공공성이
7
강한 ‘열린 데이터’이며 국민들이 개입하는 ‘참여의 데이 터’다. 칼 포퍼는 집단 중심인 닫힌사회와 개인의 결정이 중요한 열린사회를 비교하면서 닫힌사회에서 열린사회로 의 전환은 아직 진행 중이며(Karl Popper, 2011, p. 167), 안전과 자유를 확보하기 위해서는 열린사회로 가야 한다 고 지적한다(Karl Popper, 2011, p. 189). 열린사회를 만 드는 데 양질의 공공 데이터를 공개하는 노력은 중요할 것 이다.
참고문헌 Arthur, L.(2013). What is big data? Retrieved from http://www.forbes.com/sites/lisaarthur/2013/08/15/whatis-big-data/ Farrell, J.(2013). An object-oriented approach to programming
logic and design. New York, NY: Course Technology. Foley, J.(2013). As big data explodes, are you ready for yottabytes? Retrieved from http://www.forbes.com/sites/oracle/2013/06/21/as-big-d ata-explodes-are-you-ready-for-yottabytes/ Global Open Data Initiative(2014). Declaration: A citizens’ call to action on open data. Retrieved from http://globalopendatainitiative.org/declaration/ Harper, D.(2014). Online etymology dictionary. Retrieved from http://www.etymonline.com/index.php?term=data Jacobs, A.(2009). The pathologies of big data. Communications of
8
the ACM, 52(8), 36âˆź44. Merriam-Webster(2014). data. Retrieved from http://www.merriam-webster.com/dictionary/data Microsoft(2014). Excel specifications and limits. Retrieved from http://office.microsoft.com/en-us/excel-help/excel-specifi cations-and-limits-HP010342495.aspx Popper, K.(2011). The open society and its enemies. Oxon, UK: Routledge. Tien, J. M.(2013). Big data: Unleashing information. Journal of
Systems Science and Systems Engineering, 22(2), 127âˆź151.
9
02 데이터와 저널리즘의 접목
데이터 저널리즘에서 데이터가 차지하는 함의를 데이터, 정보, 지식, 지혜, 뉴스라는 관점에서 살펴본다. 정보과학 연구자들은 데이터-정보-지식-지혜라는 이른바 ‘DIKW’ 체계로 데이터의 의미를 제시하고 있다. 데이터 저널리즘에서 뉴스는 공공 지식을 제공하며 이를 통해 지혜를 제시한다. 데이터와 저널리즘의 접목을 가로막는 요소들을 자세하게 논의한다.
데이터, 뉴스, 지식 데이터 저널리즘을 논의하는 과정에서 주목할 부분은 데 이터와 저널리즘 또는 데이터와 뉴스가 어떻게 관련이 될 수 있는가다. 데이터를 분석하고 연구하는 학문이 엄연히 존재하는 가운데 왜 데이터 저널리즘의 형태로 언론이 데 이터와 밀접하게 관계를 맺는가다. 이 물음의 답을 찾기 위해서는 컴퓨터공학, 정보과학 등 다른 학문이 데이터와 정보를 이해하는 방식을 참고할 필요가 있다. 컴퓨터공학, 정보관리 시스템, 도서관학 연구자들은 정보를 데이터 (data)-정보(information)-지식(knowledge)-지혜 (wisdom)라는 이른바 피라미드 모양의 ‘DIKW’ 위계 체계 에서 접근한다(Frické, 2009). 데이터에서 정보가 추출되 며 이를 바탕으로 지식이 생성되고 마지막에는 지혜가 나 온다는 것이다. ‘DIKW’ 체계는 지식 관리라는 측면에서 인간이 보고 아는 다양한 차원을 재현하는 방식으로 간주 된다(Schumaker, 2011). 저널리즘이 지식 관리를 담당한다는 주장이 데이터 저 널리즘과 관련해 제기되고 있다. 일부 언론학자들은 저널 리즘을 정보 전달 체계로 이해하지만 다른 언론학자들은 저널리즘을 기억과 가치를 담은 문화 저장소로 간주하는 극명한 차이를 보이는데, 저널리즘을 지식 관리 체계로 접
12
근하는 것은 이 간극을 메울 수 있다(Lewis & Usher, 2013). 따라서 지식 관리라는 개념이 데이터를 저널리즘과 연결 시키는 첫 번째 고리가 될 수 있다. 정보의 홍수에서 의미 있는 유형을 찾아내려면 컴퓨터 기술로 분석하고 추론하는 방식이 필요하며, 이는 데이터 분석(data mining)의 토대가 된다(Schumaker, 2011)는 점 에 주목할 필요가 있다. 데이터 추출은 데이터에서 의미 있는 구조를 확인하거나 발견하는 체계적 과정으로 정의 된다(Fayyad & Grinstein, 2002). 컴퓨터를 활용하는 방 식에는 ‘computational thinking’이라는 개념이 내재해 있 는데, 구글 학술 검색(scholar.google.co.kr)으로 이 용어 를 검색해 보면, 국내 학계는 ‘정보과학적 사고’, ‘계산적 사고’, ‘컴퓨터적 사고’, ‘컴퓨팅적 사고’, ‘컴퓨터 활용 사고’ 등 관련 연구 맥락에서 상이한 용어를 사용하고 있다. 경제학자이며 사회 복잡성을 연구하는 존 밀러(John H. Miller)와 스콧 페이지(Scott E. Page)는 이론 개발에 컴퓨터 기술로 분석하고 추론하는 방식을 강조한다. 이론 적 모형이 이 방식에 해당하기 위해서 컴퓨터 사용이 필요 조건도 충분조건도 아니지만 일련의 컴퓨터 기술로 분석 하면서 추상화하는 과정이 발생하며 이 추상화가 현실 주 체와 밀접하게 연관되는지가 핵심이다(Miller & Page,
13
2007, p. 65). 특히, 컴퓨터 기술을 활용한 분석과 추론 자 체보다 이 과정을 이해하는 것이 중요하다(Miller & Page, 2007, p. 77). 컴퓨터 기술로 데이터를 분석하고 의미를 추론하는 과 정이 데이터와 저널리즘을 연계하는 두 번째 연결고리가 된다. 이 같은 언론 행위를 학자들은 ‘컴퓨터 기술 저널리 즘(computational journalism)’으로 명명하기도 한다. 이 저널리즘은 기자들이 컴퓨터 기술을 장착한 소프트웨어로 다양한 문제를 다루며 이 과정에서 프로그래밍보다는 개 념화에 초점을 맞춘 컴퓨터공학의 계산적 추상화와 관련 방법이 강조된다(Flew, Spurgeon, Daniel, & Swift, 2012). 데이터와 저널리즘의 접목 가능성을 두 가지 측면에서 살펴보았다. 뉴스가 데이터를 기반으로 정보, 나아가 지 식을 창출한다는 논리는 ‘DIKW’ 체계의 함의를 재고하게 한다. 그러나 ‘DIKW’ 체계를 데이터 저널리즘에 그대로 접목시키기는 어렵다. ‘DIKW’ 체계는 1930년대에 유행한 실증주의와 조작주의(operationalism)에 기반을 두는데, 데이터를 측정할 수 있는 객체로 간주하고 정보는 데이터 에서 나온다고 전제해 정보가 데이터에서 기인하지 않는 점을 간과하고 있다(Frické, 2009). 정보는 데이터보다 광 범위하고 강력하며 데이터로 환원할 수 없는 것이다. 이
14
지적을 보면, 기자들이 복잡한 정부 데이터에서 중요한 기 삿거리를 발굴해 상호작용이 가능한 그래픽과 도표, 지도 와 함께 기사로 제공하는 내용은 정보지만, 이 정보가 정 부 데이터로 환원되기는 어렵다는 것과 유사하다.
공공 지식과 지혜 1장에서 제시한 데이터의 개념이 주어진 것이라는 정의 는 데이터와 저널리즘에 대한 중요한 특징을 담고 있다. 기자들에게 제공된 정부 자료는 진실하고 확실해야 한다 고 주장할 수 있다. 그러나 데이터의 진실성과 확실성은 데이터로 확실한 지식을 구축한다는 고전적 경험주의자, 논리적 실증주의자, 이성주의자들의 관점에서 비롯된 것 으로 확실한 지식이 없는 것처럼 확실한 데이터는 없다 (Frické, 2009). 데이터의 불확실성을 감안할 때 기자들은 데이터로 작 성한 기사의 진실성을 어떻게 확보할 수 있을까라는 의문 을 제기할 수 있다. 데이터 자체도 진실해야 하지만 데이 터로 표현한 기사문이 진실한 게 중요하다. 이 경우 기자 는 데이터가 주는 객관성과 함께 기사가 갖는 정확성, 진 실성을 주장할 수 있다. 즉, 데이터에 담긴 퍼센트, 날짜, 빈도 수 등 수치 자체가 진실하기보다 이 수치로 의미를
15
부여한 내용이 진실해야 한다(Frické, 2009). 그럼에도 불구하고 ‘DIKW’ 체계는 저널리즘에 흥미로 운 시사점을 제공한다. 사건 기사의 경우 ‘5W 1H(누가, 무엇을, 언제, 어디서, 왜, 어떻게)’를 담고 있으며 이 중 상 당수는 첫 문장에 제시하도록 되어 있다. ‘DIKW’ 체계는 이중 누가, 무엇을, 언제, 어디서에 관한 정보를 담고 있는 데 ‘왜’라는 질문은 빠져 있다(Frické, 2009). ‘왜’에 대한 답은 지식으로 연결될 것이다. 이 점에서 언 론인이 소프트웨어와 컴퓨터 도구로 지식 관리자의 역할 을 수행할 수 있게 됐다(Lewis & Usher, 2013). 여기서 뉴 스가 정보를 뛰어넘는 지식이라면 어떤 성격의 지식인가 는 중요한 문제다. 지식은 분명하게 표현하거나 제시할 수 없는 ‘절차적 지식(know-how)’과 표현이 가능하고 저 장할 수 있는 ‘지식 자체(know-that)’가 있다. 철학으로 보 면 정당화되고 진실한 신념인 ‘강한 지식’과 정당화되지 않았지만 진실한 신념인 ‘약한 지식’으로 구분하며, 약한 지식은 표현하고 저장할 수 있다(Frické, 2009). 데이터 저널리즘이 추구하는 지식은 표현하고 저장할 수 있으나 정당화되지 않은 공공 지식이라고 해석할 수 있다. 정당 화는 뉴스 이용자들이 개입해 판단하는 부분이다. 이용자들은 공공 지식을 담은 뉴스를 소비하면서 자신
16
의 삶과 사회에 내재한 문제점을 파악하고 이에 대처하는 방식을 고민할 것이다. 뉴스에서 삶의 지혜를 얻을 수 있 다고 할 수 있다. 삶의 지혜는 과학 지식처럼 배울 수 있고 적용할 수 있는 공식으로 존재하지 않으며 포괄적인 형태 를 띤다(Nozick, 1990, p. 278). ‘DIKW’ 체계의 정점에 있 는 지혜는 인간과 동물, 외계 생물체, 경제, 생태계, 사회, 자연 등 다양한 존재를 인식하고 이들의 안녕, 각종 위험 의 존재, 위험의 대처 방법을 아는 것으로 정의할 수 있다 (Nozick, 1990, pp.271∼272). 지혜 자체에 대한 관심은 저널리즘에도 나타나고 있는데 일명 ‘지혜 저널리즘 (wisdom journalism)’이 그것이다. 웹 사이트들이 신문, 방송, 라디오 매체보다 뉴스를 훨씬 효과적으로 전달하는 상황에서 블로그들은 뉴스와 의견이라는 구분을 뛰어넘 어 논리적인 해석을 제공하고 있는데,이처럼 관심 분야를 충분히 아는 기자들이 논리적이며 밀도 깊은 해석을 제시 하는 것이 지혜 저널리즘이다(Stephens, 2010).
데이터와 저널리즘 접목의 걸림돌 데이터를 뉴스 생산에 활용하는 과정에서 다양한 걸림돌 이 존재한다. 이 걸림돌은 저널리즘 내부와 저널리즘 외 부 환경으로 나누어 생각할 수 있다. 저널리즘 내부에 있
17
는 걸림돌은 기존 뉴스 관행이다. 관행이나 규칙은 제도 로 정의한다(Cook, 2006). 기자들과 언론사는 정통 저널 리즘을 추구하면서 뉴스는 전문 훈련을 받은 기자들만이 생산할 수 있는 전유물로 인식하는 경향이 있다. 그만큼 외부 변화의 함의를 파악해 수용하는 유연성이 떨어진다. 데이터 저널리즘의 근본 특성은 ‘컴퓨터공학’과 ‘저널리즘’ 의 결합이다. 프로그램을 개발하기 위해 코드, 소프트웨 어 활용법, 데이터의 통계 분석 기법, 지리정보 시스템을 활용한 시각화는 텍스트나 영상 중심의 기사 쓰기와는 질 적으로 다르다. 기술을 이해하려는 열린 자세가 필요하며 기술을 적용하는 데 인내심이 있어야 한다. 기자 개인의 노력도 중요하지만 언론사 차원에서 기자들이 데이터 저 널리즘을 배울 수 있도록 지원해 주는 일은 시급한 과제 다. 이를 위해서 언론사 경영진이 데이터의 중요성과 이 를 바탕으로 한 데이터 뉴스의 가치를 제대로 인지할 필요 가 있다. 이미 데이터 분석을 제공하면서 수익을 창출하는 사업 모형이 등장하고 있다(Lorenz, 2012, pp.58∼59). 경제뉴 스 통신사인 블룸버그는 금융 데이터를 약 30만 개의 단말 기로 가입자들에게 제공하고 있다. 가입자들은 각 단말기 에 있는 3만 개의 사양을 이용해 데이터를 검색하고 비교
18
하며 분석해 결정을 내리고 있다. 캐나다 언론재벌인 톰 슨로이터(Thomson Reuters)는 신문 사업을 정리하고 산 업계에 심층적인 내용을 제공하는 정보 서비스업을 하고 있다. 국내 언론사들도 글 중심의 뉴스를 전달하는 1차원 의 정보 서비스를 탈피해 데이터를 분석한 입체 뉴스를 제 공하는 노력이 필요하다. 저널리즘의 외부 환경에 존재하는 걸림돌로 데이터 자 체의 복잡성을 들 수 있다. 데이터는 복잡한 현실을 반영하 는 원 자료로 크게 세 가지의 문제점을 안고 있다(Parasie, 2011). 첫째, 데이터를 저장한 파일 형태가 분석할 수 없는 경우가 있다. 분석 프로그램으로 처리할 수 없는 파일 형 태(pdf, .pedia)로 데이터가 존재한다. 이 때문에 데이터 기자들은 올바른 형태로 저장된 데이터를 확보하는 일을 가장 큰 난관으로 꼽는다(Wihbey, 2014). 둘째, 수치가 틀리거나 변인 값이 뒤엉킨 경우 등 다양한 오류가 데이터 에 내재해 있다. 특히 정부가 공개하는 데이터의 경우, 분 류하는 과정이 조작될 가능성이 있어 기자들은 공무원들 이 공개하는 자료를 사용하기를 꺼린다(Parasie & Dagiral, 2012). 셋째, 메타데이터가 없는 경우가 있다. 데이터에 관한 데이터로 불리는 메타데이터는 문서의 저자, 사진을 찍은 날짜, URL 등 문서의 특성을 묘사하는 데이터를 의
19
미하거나(Duval & Robson, 2001), 웹에서 유통되는, 컴 퓨터가 이해할 수 있는 정보를 뜻한다(Swick, 2001). 따라 서 메타데이터는 HTML, META 태그, XML 등 컴퓨터가 이해할 수 있는 양식으로 존재하며 학습과 교육, 훈련에 쓰이는 디지털이나 아날로그 형식의 자원에 대한 특징을 담은 자료다(Duval & Robson, 2001). 이 자원의 일반 특 징, 역사와 현재 상태, 기술적 요구 사항, 저작권과 사용 조건 등이 메타데이터의 예다. 데이터 저널리즘 활성화에 걸림돌이 되는 외부 환경으 로 다수의 경쟁자들이 있다. 빅데이터에서 의미를 추출해 상품으로 제공하거나 데이터베이스를 구축해 판매하는 기업들이 등장하고 있다. 데이터 기자들과 연구자들이 자 주 인용하는 대표 기업으로 인포침스(InfoChimps)가 있으 며 데이터 분석 서비스로 이윤을 추구하는 오픈코퍼레이 트(OpenCorporates), 카사비(Kasabi), 데이터마켓(Data Market), 톰슨로이터(Thomson Reuters) 같은 기업들이 있다(Aitamurto, Sirkkunen, & Lehtonen, 2011; Lorenz, 2012). 데이터 활용 기자들과 언론사들이 이 같은 내부와 외부 환경의 장애물을 어떻게 극복하는가에 데이터 저널 리즘의 활성화가 달려 있다고 할 수 있다.
20
참고문헌 Aitamurto, T., Sirkkunen, E., & Lehtonen, P.(2011). Trends in data journalism. Hyperlocal, D.3.2.1.2.B, 1∼27. Cook, T. E.(2006). The news media as a political institution: Looking backward and looking forward. Political
Communication, 23(2), 159∼171. Duval, E., & Robson, R.(2001). Guest editorial on metadata.
Interactive Learning Environments, 9(3), 201∼205. Fayyad, U., & Grinstein, G. G.(2002). Introduction. In U. Fayyad, G. G. Grinstein, & A. Wierse (Eds.), Information
visualization in data mining and knowledge discovery (pp.1∼20). San Diego, CA: Academic Press. Flew, T., Spurgeon, C., Daniel, A., & Swift, A.(2012). The promise of computational journalism. Journalism Practice, 6(2), 157∼171. Frické, M.(2009). The knowledge pyramid: A critique of the DIKW hierarchy. Journal of Information Science, 35(2), 131∼142. Lewis, S. C., & Usher, N.(2013). Open source and journalism: Toward new frameworks for imagining news innovation.
Media, Culture & Society, 35(5), 602∼619. Lorenz, M.(2012). Business models for data journalism. In J. Gray, L. Bounegru, & L. Chambers (Eds.), The data journalism
handbook: How journalists can use data to improve the news (pp.58∼60). Sebastopol, CA: O’Reilly Media Inc. Miller, J. H., & Page, S. E.(2007). Complex adaptive systems: An
introduction to computational models of social life. Princeton, NJ: Princeton University Press.
21
Nozick, R.(1990). The examined life: Philosophical mediations. New York, NY: Touchstone. Parasie, S.(2011). ‘Hacker’ journalism-A new utopia for the press? 1∼12. Article previously published in laviedesidées.fr on 21 June 2011. Translated from French by Victoria Lazar Graham. Published in booksandideas.net on 12 October 2011. Parasie, S., & Dagiral, E.(2012). Data-driven journalism and the public good: “Computer-assisted-reporters” and “programmer-journalists” in Chicago. New Media &
Society, 15(6), 853∼871. Schumaker, R. P.(2011). From data to wisdom: The progression of computaitonal learning in text mining. Communications
of the IIMA, 11(1), 39∼48. Stephens, M.(2010). The case for wisdom journalism–and for journalists surrendering the pursuit of news. Daedalus,
139(2), 76∼88. Swick, R.(2001). Metadata and resource description. Retrieved from http://www.w3.org/Metadata/ Wihbey, J.(2014). Research chat: Sarah Cohen of the New York Times on the state of data journalism and what reporters need to know. Shorenstein Center on Media, Politics and Public Policy of Harvard Kennedy School. Retrieved from http://journalistsresource.org/skills/reporting/research-cha t-new-york-times-sarah-cohen-state-data-journalismwhat-reporters-need-know?utm_source=JR-email&utm_ medium=email&utm_campaign=JR-email#
22