헬로 데이터 과학 맛보기

Page 1

A B C

하는 분야인 검색을 공부하고, 졸업 후 현재 마이크로소프트의

와 엑셀 생활 데이터

온라인 서비스 부문에서 데이터 과학자로 근무하고 있다. 이는 미국 검색 트래픽의 30%를 담당하는 빙(Bing) 서비스의 품질 평가 및 개선을 위한 방법을 연구하는 일이다. 이런 경험은 데이 터 혁명의 위력과 파급효과를 그 최전선에서 느낄 수 있게 해주 었다. 업무 이외의 영역에서도 필자는 데이터를 활용할 방법을 항상 고민해왔다. 대학을 다닐 때부터 ‘내가 행복하다고 느끼는 시간 의 양을 최대화하는 것’이 인생의 목표 중 하나라고 여겨왔던 필 자는 개인의 행복도를 측정하고 개선할 수 있는 방법을 찾기 위 해 약 10년간 다양한 방법을 개발하였다. 그리고 최근에는 생산 성, 건강, 인간관계 등 삶의 다른 영역에서도 비슷한 접근을 시도

제들! 문 한 적 산 주변에 수 있다! 로 누구나 풀

하는 데 계 업그레이드 의 삶을 한 단 자 독 어 내 어 으로 풀 자기 생활의 를 데이터 과학 생활 데이터로 터 게 이 넘 데 을 활 년 생 서 10 은 이 책은 터 과학자이면 매출 늘리기 같 S 본사 데이 , 건강해지기, . M 기 다 하 니 트 습 어 있 이 라다 그 목표가 한 과제가 아니 온 저자는 거창 어 풀 을 증 시합니다. 금 문제와 궁 해결 사례를 제 제 문 해 대 에 있도록 존재하는 고민 에게 적용할 수 신 자 서 나 생활 속에서 늘 고 읽 전문가도 책을 최소화하고 비 복잡한 이론을 하여 합니다. 터 과학을 접목 여 문제를 해결 데이터에 데이 몰 스 은 엑셀을 사용하 같 터 터, 생활 데이 나면 개인 데이 이 책을 읽고 겁니다. 해결할 수 있을 를 제 문 의 신 여러분도 자

하고 있다. 이처럼 일과 삶에서 데이터를 활용하는 방법을 고민하면서, 데 이터 과학이 어떤 특정한 산업이나 직업군의 사람에게만 가능한 이터를 모으고 분석하는 방법에 대한 사례와 노하우를 블로그, 기고문 등을 통해 공유하기 시작했다. 이런 글들로 여러 사람의 관심과 격려를 받기 시작하면서, 필자는 더 많은 사람에게 메시 지를 전달할 방법을 고민하기 시작했다. 이 책은 그런 고민의 산 물이다.

례 루는 대표 사 이 책에서 다 학습 로 해보는 기계 •스몰 데이터 의 라이즈 문제 정 •넷플릭스 프 알아보는 ight 기사로 •FiveThirtyE 즘 데이터 저널리 활 지표화 •건강 및 식생 상(행복) 지표화 •정성적인 현 데이터 과학 당 운영을 위한 •(가상사례) 식

알려주는 가 자 학 과 이터 MS 본사 데

지은이

미국 매사추세츠 주립대에서 컴퓨터 사이언스(정보 검색) 전 A B C

업무에서 활용할 수 있는 데이터 과학을 가르치기도 한다. 개인적으로 삶의 생산성과 행복도를 높일 수 있는 다양한 데이 터 수집 및 분석 방법을 개발하여 사용하고 있고, 이런 활동을

Seattle Times에서 보도했다. 정보 검색, 기계학습, 측정 등을 주제로 한 개인 블로그 ‘헬로 데이터 과학’과 생활 속 데이터 활 용을 통해 데이터 과학을 배우는 사람들의 모임인 ‘생활데이터’ 를 운영한다.

루는 실습 이 책에서 다 터 과학 맛보기 •엑셀로 데이 과학 맛보기 •R로 데이터 터 분석 는 탐색적 데이 •엑셀로 해보 는 통계적 추론 •엑셀로 해보

페이스북 www.facebook.com/hellodatascience 블로그 www.hellodatascience.com 생활데이터 www.facebook.com/group/livingdata C

B

A

김진영 지음

A B C

A

HELLO DATA SCIENCE

용법! 활 데이터 활 생 는 꾸 바 삶과 업무를

관련도서 IT전문서 / 빅데이터

데이터 과학

비즈니스 활용 사례로 배우는

데이터 분석 : R

정가 18,000원

비즈니스를 위한

공으로 박사학위를 받고 현재 미국 마이크로소프트 본사의 빙 (Bing) 검색엔진 부문의 연구자로 일한다. 회사에서 검색 품질

C

B

김진영

을 평가하는 일을 담당하며, 마이크로소프트 신입사원을 상대로

김진영 지음

일은 아니라는 확신을 갖게 되었다. 또한 자신의, 혹은 주변의 데

MS 본사 데이터 과학자가 알려주는

필자는 미국의 대학원 박사과정에서 데이터 과학의 첨단을 대표


헬로 데이터 과학 : 삶과 업무를 바꾸는 생활 데이터 활용법 초판발행 2016년 3월 1일 지은이 김진영 / 펴낸이 김태헌 베타리더 고영혁, 권정민, 김란우, 김설기, 김영웅, 박근한, 박지영, 엄태욱, 유승하, 유운연, 이성훈, 이시영, 장익환, 전희원, 최은솔, 최재홍, 하용호 펴낸곳 한빛미디어 (주) / 주소 서울시 마포구 양화로 7길 83 한빛미디어(주) IT출판부 전화 02 – 325 – 5544 / 팩스 02 – 336 – 7124 등록 1999년 6월 24일 제10 – 1779호 / ISBN 978 – 89 – 6848 – 265 – 6 13000 총괄 전태호 / 책임편집 김창수 / 기획 최현우 / 편집 홍원규 디자인 김미현 영업 김형진, 김진불, 조유미 / 마케팅 박상용, 송경석, 서은옥 / 제작 박성우 이 책에 대한 의견이나 오탈자 및 잘못된 내용에 대한 수정 정보는 한빛미디어(주)의 홈페이지나 아래 이메일로 알려주십시오. 잘못된 책은 구입하신 서점에서 교환해 드립니다. 책값은 뒤표지에 표시되어 있습니다. 한빛미디어 홈페이지 www.hanbit.co.kr / 이메일 ask@hanbit.co.kr

Published by HANBIT Media, Inc. Printed in Korea Copyright © 2016 김진영 & HANBIT Media, Inc. 이 책의 저작권은 김진영과 한빛미디어(주)에 있습니다. 저작권법에 의하여 한국 내에서 보호를 받는 저작물이므로 무단 복제 및 무단 전재를 금합니다.

지금 하지 않으면 할 수 없는 일이 있습니다. 책으로 펴내고 싶은 아이디어나 원고를 메일 ( writer@hanbit.co.kr ) 로 보내주세요. 한빛미디어(주)는 여러분의 소중한 경험과 지식을 기다리고 있습니다. 이 책은 저자 개인의 저작물로 마이크로소프트의 의견을 대변하지 않습니다.



DATA science

천 의 말

‘빅데이터’, ‘데이터 과학(데이터 사이언스)’. 이 단어들은 당장 자신의 생활과 별로 관련이 없어 보여도 여기저기에서 한 번쯤은 들어본 용어일 것이다. 이 중 빅 데이터에 비해 데이터 과학은 일반인에게 잘 알려진 편은 아니다. 시중에는 이미 빅데이터나 데이터 과학에 대한 여러 책이 있다. 그런데 이 책들은 데이터 과학이 우리 삶에 어떤 의미가 있고, 어떤 고려사항이 있고, 어떤 식으로 실행에 옮기면 될지에 대한 구체적인 방법을 알려주지는 않았다. 여러분이 갖고 있는 궁금증이 이런 것이라면 『헬로 데이터 과학』은 2016년 2 월 기준으로 한국 시장에 존재하는 유일한 대안이자 해결책이다. 본인도 데이터 과학자이자 대학에서 빅데이터와 데이터 과학을 가르치고 있는 입장에서 『헬로 데이터 과학』을 추천하는 이유는 크게 세 가지다. 첫째, 데이터 과학의 진짜 의미를 쉽고 직관적으로 설명해준다. 데이터 과 학은 빅데이터를 다루어서 답을 내는 방법론만은 아니다. 빅데이터든 스몰데 이터든 우리 주변에는 손쉽게 구할 수 있는 다양한 데이터가 있고, 간단한 방 법을 통해 이러한 데이터들을 분석해서 가치 있는 결과를 도출할 수 있는 것 이 데이터 과학이다. 이 책은 빅데이터에 호도되기 쉬운 요즘 분위기에서 크 기와 관계없이 데이터의 의미와 중요성을 짚어주고 있으며, 우리 주변에서 쉽 게 구할 수 있고 바로 적용해볼 수 있는 스몰데이터를 활용하여 데이터 과학 이 먼 나라 이야기가 아니라 우리 주변의 이야기가 될 수 있음을 제대로 설명 해준다.

4

헬로 데이터 과학


둘째, 데이터 과학을 누구나 쉽게 접근해볼 수 있는 방법을 제공해준다. 데이터를 다루는 도구는 다양하다. 시장에는 R과 파이썬을 중심으로 다루는 책들이 대부분이지만, 이 책에서 데이터 과학을 다루는 예제는 대부분 엑셀 을 활용하고 있다. R이나 파이썬에 비해 엑셀이 대중들에게 훨씬 접근성이 좋고 사용하기 쉽다는 것은 명백한 사실이다. 저자가 엑셀밖에 다루지 못해 서가 아니라 훨씬 많은 사람이 데이터 과학에 ‘안녕’하고 인사를 할 수 있게 끔 하기 위한 배려라는 점에서 추천을 하지 않을 수 없다. R에 대한 기본적인 사용법도 다루고, 독자들이 R로 손쉽게 넘어갈 수 있도록 이 책에 사용된 엑셀을 활용한 예제의 R 버전을 저자의 홈페이지를 통해 만날 수 있다는 점 도 매력 포인트다. 이처럼 데이터 과학은 우리 주변의 다양한 데이터들을 활 용해서 어렵지 않게 실행에 옮겨볼 수 있으며, 『헬로 데이터 과학』은 이를 위 해 필요한 데이터의 수집, 처리, 통계 기본, 시각화 등의 내용을 균형 있게 담 고 있다. 셋째, 저자의 살아 있는 경험이 잘 녹아 있다. 저자는 마이크로소프트 본 사에서 검색 품질 향상을 담당하는 데이터 과학자다. 이 책은 마이크로소프 트가 데이터 과학을 통해 어떤 식으로 서비스의 품질을 향상시키고 관리하 는지에 대해 저자의 업무 경험을 녹여서 설명한다. 이보다 더 높은 점수를 주 고 싶은 부분은 저자의 삶 자체를 책에 녹인 점이다. 저자는 데이터 과학자로 서 일하기 훨씬 전부터 자신의 생활에서 의미 있는 데이터를 찾아서 기록해

5


DATA science

천 의 말

보고, 기록된 많은 데이터를 분석해서 자기 삶을 개선시키기 위해 노력해왔 다. 이러한 작업을 시작한 시점은 저자가 평범한 학생일 때였고, 이 경험이 값 진 자산이 되어 데이터 과학자의 커리어를 밟게 된 경우다. 이 책에는 데이터 를 취미로 시작해 직업으로 연결시킨 저자 자신의 이야기가 구체적으로 담겨 있고, 이 점이 바로 『헬로 데이터 과학』을 추천하는 가장 큰 이유다. 『헬로 데이터 과학』을 통해 많은 분들이 데이터 활용에 대한 인연의 끈을 발견하고 이를 키워나갈 수 있기를 진심으로 기원한다. 고영혁(고넥터 대표, 경희사이버대 데이터 과학 담당 겸임교수)

이 책은 데이터 분석에 대한 본질을 기반으로 해서, 이를 실생활에서 쉽게 활용하는 방법부터, 현업에서 데이터로 가치를 창출하는 내용까지를 쉽고도 꼼꼼하게 아우르고 있다. ‘데이터’를 피상적으로만 알고 있던 사람이나, 이에 대해 어느 정도 익숙한 사람 모두 이 책을 통해서 데이터를 보다 깊이 이해 하고 친해질 수 있을 것이다. 권정민(SK플래닛, 데이터 분석가)

이 책은 데이터 과학 전문 지식을 복잡한 수학공식 없이 풀어서 제시하는 흔치 않은 책이다. 사례에 기반한 저자의 상세한 설명을 따라가다 보면 이 시대의 화두가 된 데이터를 어떻게 수집하고 분석하며 이해하는지 손쉽게 알 수 있게 될 것이다. 미국 시애틀 마이크로소프트 검색엔진 부서에서 근

6

헬로 데이터 과학


무하며 개인적인 데이터 분석에도 관심을 쏟아온 저자가 제시하는 다양한 사례가 매우 흥미롭게 다가온다. 이 책 안에는 엑셀을 이용한 기본적인 데이 터 분석에서부터 R, 기계학습, 데이터마이닝을 이용한 전문 분석 기법까지 데이터 과학의 전반적인 개념들이 다수 등장하기 때문에 데이터 과학 입문 서로서의 효과적인 역할도 기대해본다. 오삼균(성균관대학교, 학술정보관장, 문헌정보학·데이터사이언스학과 교수)

상품이 아닌 데이터를 생산하는 ‘데이터 공장’이라고 불리는 구글, 페이스북, 아마존처럼, 모든 회사가 이제는 IT 회사를 넘어 ‘데이터 회사’가 되어야 한 다고 주장할 정도로 DT(Data Technology)가 주목받는 시대다. 많은 사람이 이 에 데이터 과학의 세계로 입문하고자 하지만 어디서부터 시작해야 할지 막 막해한다. 이 책은 데이터를 수박 겉핥기 식으로 공부하려는 사람보다는 일상생활 에서부터 데이터를 가까이하면서 실천을 통해 공부하려는 사람들에게 추천 한다. 물론 일상생활부터 접근한다고 얕보면 안 된다. 낮에는 데이터 과학 자, 밤에는 데이터 애호가, 주말에는 데이터 전도사로 살고 있는 저자가 데 이터 과학자가 되는 길까지 차근차근 안내해준다. 책 집필 과정에도 데이터 과학을 활용할 정도로 데이터 과학을 실천하며 사는 저자의 데이터에 대한 애정어린 이야기를 들어보길 바란다. 엄태욱(SK플래닛, 데이터 프로그래머)

7


DATA science

천 의 말

크기가 작든 크든 모든 데이터 안에는 고유의 이야기가 숨겨져 있다. 저자는 그 이야기의 주인공이 기업 비즈니스, 사회, 경제가 아니라 바로 독자이길 바라는 마음으로 글을 썼다. 자신에 대한 ‘사실에 기반한 이야기’가 궁금한 독자라면 이 책이 궁금증을 해소할 방법을 제시해줄 것이다. 전희원(SK텔레콤, 데이터 분석가)

항상 “어떻게 하면 데이터 과학자가 될 수 있나요?”라는 질문을 들어왔고, 그 때마다 적절한 대답을 하지 못해 곤란을 겪었다. 데이터 초보자들에게 데이 터가 얼마나 멋진지를 이야기하는 책과, 데이터 상급자들에게 기술적 기법을 논하는 책은 많지만, 그 사이를 이어주는 책은 없었다. 사실 가장 많은 사람 이 궁금했던 지점은 바로 거기였는데도 말이다. 이제는 그런 질문들을 받았 을 때, 자신 있게 내놓을 답이 생겼다. 이 책이다. 마음은 가득하나 막막한 안개 속을 걷고 있던 많은 이에게 다음 한걸음, 한걸음을 가르쳐주는 소중한 책이다. 진심으로 이런 책이 존재하게 되어 기쁘다. 하용호(넘버웍스 대표, 데이터 과학자)

8

헬로 데이터 과학


DATA science

지 은 이 의 말

첫 아이를 떠나보내는 마음 아직은 햇살이 따뜻한 10월의 첫 주말 오후, 집필에 몰두하는 동안 내내 아 내와 나의 작업실 역할을 하던 시애틀의 로이 스트리트 까페에서 이 글을 쓴다. 지난 여름 신혼 생활에 익숙해지기도 전에 시작한 작업이 결실을 보기 까지는 1년이라는 시간이 필요했다. 사실 아직도 작업이 끝나지 않았으니 아 직 에필로그를 쓰기는 이른 시점이다. 하지만 오늘은 웬지 그 동안의 시간을 돌이켜보고 싶은 기분이다. 빅데이터니 데이터 과학이니 하는 데이터에 대한 출판물이 쏟아지는 요 즘, 또 책을 쓰겠다는 결심이 쉬운 것은 아니었다. 그렇지만 소위 ‘데이터 열 풍’이 시작되기 훨씬 전부터 스스로 다양한 데이터를 모아 분석하면서 느꼈 던 데이터의 가치에 대한 믿음이 가장 큰 원동력이 아니었다 싶다. 굳이 빅 데이터가 아니라도, 그리고 복잡한 수학이나 프로그래밍 없이도 데이터에서 많은 가치를 얻을 수 있다는 메시지를 담는다면 의미 있는 목소리가 되겠다 는 생각을 했다. 하지만 책을 쓴다는 일이 어떤 일인지 알았다면 아예 시작조차 하지 않 았을 것이다. 오랫동안 해오던 블로그 글쓰기와 책 쓰기가 마치 오두막과 마 천루를 짓는 것과 같은 차이가 있다는 사실을 깨닫기까지는 그리 오랜 시간 이 걸리지 않았다. 글을 쓴다는 공통점은 있지만 작업의 규모, 깊이, 그리고

9


DATA science

지 은 이 의 말

프로세스에서 전혀 다른 차원의 결심과 노력을 요구하니 말이다. 물론 이미 시작한 뒤에는 쉽게 멈추기 힘든 매력을 발견하기도 하였다. 많은 작가가 집필하는 동안 머리가 빠지거나 몸무게가 늘어난다는 등의 이야기를 한다. 아내와 나의 생활 역시 적지 않은 변화를 겪어야 했다. 우선 저녁과 주말의 여가 모두를 책과 관련된 일에 투자해야 했고, 저녁에 시작한 작업이 한밤 중까지 이어지는 바람에 아침 7시 전에 일어나곤 했던 나의 기 상 시간은 9시를 넘기기 일쑤였다. 날씨가 좋은 여름 주말에도 시애틀 근처 의 경치 좋은 트레일에서 산행을 하는 대신, 아내와 나는 분위기 좋은 까페 를 찾아다니면서 글을 쓰는 것으로 취미생활을 바꿨다. 그럼에도 불구하고 집필을 시작한 것을 후회한 시간보다는 감사하게 생 각했던 시간이 많았던 것 같다. 대학원을 마치고 시작한 회사 생활이 3년차 에 접어들면서 현상에 안주하기 시작한 나 자신의 지적인 성장을 꾸준히 채 찍질하는 계기가 되었고, 특히 검색 기술 관련 논문을 읽고 쓰는 것에서 벗 어나 데이터 과학이라는 새롭지만 방대한 분야의 다양한 이론과 사례를 내 것으로 소화하는 기회를 얻을 수 있었다. 또한 집필을 시작하고, 집필한 내 용을 틈틈이 블로그 및 각종 매체에 기고하기 시작하면서 다양한 사람들과 인연을 만들 수 있었다. 아직 아이를 키워본 경험은 없지만 글을

(특히 책을)

쓰는 것은 아이를 키

우는 것과 같다는 생각을 해본다. 자신의 모든 노력을 쏟아 부어 무에서 유 를 창조하는 과정이며, 매일 꾸준히 하지 않으면 제대로 할 수 없다는 점도

10

헬로 데이터 과학


그렇다. 시간이 지나면서 형태를 갖추고 성장하지만 결코 ‘완성’이라는 경지 에 도달할 수 없다는 점도 그렇다. 마치 어느 시점이 되면 자식을 떠나보내 야 하듯, 책 역시 어느 시점이 되면 품을 떠나 독자들의 판단에 맡겨야 하는 숙명도 비슷하다. 여기까지 오는 데 도움을 준 분들에게 감사의 말을 전하고 싶다. 우선 어 렸을 때부터 읽고 쓰는 습관을 길러주시고, 스스로 작가로서 모범을 보여주 신 어머님께 감사의 말씀을 드리지 않을 수 없다. 또한 글은 써 왔지만 책을 쓰겠다는 결심을 하지 못했던 내게 할 수 있다는 용기를 주고, 한걸음 더 나 아가 같이 책을 쓰면서 최고의 내조를 해준 아내에게 고마움을 전한다(아내 가 쓴 『소프트웨어 세계화』 역시 2016년 봄에 출간될 예정이다).

집필하는 동안 연락도 못하

고 바쁜 척하는 우리를 너그럽게 이해해준 주변 분들과 이 책이 세상의 빛 을 볼 수 있게 도와준 한빛미디어(주) 최현우 차장님에게 감사드린다.

이 책에서 다루는 데이터 과학이란 흔히 데이터 과학은 전문가를 위한 영역이라고 생각하지만, 이 책은 비전문가를 위하여 복 잡한 이론과 프로그래밍 능력 없이 할 수 있는 데이터 과학을 소개한다. 사례와 실습 예제를 보면서 “이게 데이터 과학이야?”라고 생각할 수도 있다. 하지만 원래 데이터 과학은 가설을 세우고 검정하여 의미 있는 현상을 뽑아내는 과정 전체를 아우르는 말이다. 따라서 이 책에 서는 복잡하고 어려운 예제와 실습 대신, 쉬우면서 독자들의 삶과 업무에 활용할 수 있는 예 제와 실습에 초점을 맞추었다. 더 전문적인 내용은 필자의 블로그와 SNS에서 만날 수 있다.

11


DATA science

이 책 의 독 자

데이터 과학에 대해 책을 쓰겠다는 결심을 하고 서점을 둘러보았을 때, 기존 데이터 과학 관련 책들이 ‘이미 데이터 과학자이거나 관련 분야의 전공자인 사람’을 대상으로 하고 있다는 사실을 발견했다. 그래서 그 이외의 사람들 을, 구체적으로 다음에 해당하는 독자들을 염두에 두고 이 책을 썼다. ◆ 데이터

과학이 남의 이야기라고 생각하는 사람 : 1장은 왜 우리 모두가 데이터 과학에 관

심을 가져야 하는지를 논하고 있다. 5장~6장에서 데이터 과학의 다양한 활용 사례를 살 펴보고 2장~4장으로 넘어가 데이터를 다루는 방법을 배우도록 하자. ◆ 데이터

과학에 관심만 있는 사람 : 데이터 활용에 관심이 있었지만 어디서 시작할지 막막

했던 사람이라면, 2장~4장에서 구체적인 방법과 따라할 수 있는 예제를 찾을 수 있을 것이다. ◆ 데이터

과학을 더 잘 활용하고 싶은 사람 : 데이터 과학을 이미 어느 정도 활용하고 있는

사람이라면, 2장~4장의 방법론을 복습하고, 5장~6장의 사례를 살펴보도록 하자. ◆ 앞으로

데이터 과학자가 되려는 사람 : 데이터 과학자로서의 커리어에 관심이 있는 사람

이라면, 앞 부분을 꼼꼼히 살펴본 후 7장에서 소개하는 다양한 자료를 참고하도록 하자. ◆ 데이터

과학자와 함께 일하려는 사람 : 직접 데이터 관련 업무를 담당하지 않더라도 데이

터 과학자 및 분석가와 함께 일하는 독자들에게 이 책의 내용은 데이터 과학자 혹은 분 석가의 세계를 이해하고 그들과 함께 일하는 데 도움이 될 것이다.

12

헬로 데이터 과학


DATA science

실습 환경및예제

실습 환경

이 책은 다음 환경에서 실습 예제를 확인했다. 버전에 따라 메뉴명과 제공 하는 기능이 다를 수 있으니 가급적이면 동일한 버전을 사용하기 바란다. ◆ 윈도우

7 이상

◆ 엑셀

2010 이상

◆ R

3 .1 이상

실습 예제

이 책의 예제는 한빛미디어(주)와 깃허브, 저자 블로그에서 내려받을 수 있다. ◆ http://www.hanbit.co.kr.exam/2265 ◆ http://github.com/jykim/dbook ◆ http://www.hellodatascience.com

추가 자료

이 책에서 다루는 내용과 관련된 문서가 저자 블로그에서 제공되는 경우는 다음과 같이 표기해두었다. 타이타닉호 생존자 예측

문서

『헬로 데이터 과학』 알차게 읽기 ◆ 어떤

문제를 해결하고 싶은지를 생각해보고, 꾸준히 떠올려보자.

◆ 엑셀

실습을 꼭 따라하고, 이 책의 홈페이지에서 제공하는 기타 실습도 따라하자.

◆ 데이터

과학의 모든 내용을 책 한 권에서 배울 수는 없다. 이 책의 홈페이지에서 제공하

는 장별 참고 자료를 참고하자. ◆ 문제 ◆ 이

해결 과정과 궁금증을 생활 데이터 커뮤니티에 공유하자.

책의 페이스북 페이지에 공유되는 최신 소식과 학습자료를 탐독하자.

13


DATA science 추천의 말

004

이 책의 독자 목차

009

지은이의 말

012

실습 환경 및 예제

014

013

022

프롤로그

Chapter

01

데이터 과학 입문 삶과 비즈니스를 바꾸는 데이터의 가능성 의학을 보완하는 개인 데이터의 힘 : 마크 드랭숄트

033 033

스타트업의 성장 신화를 뒷받침하는 데이터의 힘 : 에어비앤비

039

이들은 데이터를 어떻게 활용했나

데이터 과학과 테이블 데이터는 테이블이다

040 040 043

데이터 과학은 테이블 놀이다

데이터 과학에 대한 오해와 진실 스몰데이터로 시작하라

047

단순한 도구와 기술로 시작하라

048

데이터 과학을 시작하는 방법 050

데이터 마인드를 가져라 데이터 습관을 길러라

054

관련 지식과 기술을 익혀라

맺음말

14

헬로 데이터 과학

062

045

060

049

036


Chapter

02

데이터 과학에 유용한 도구 064

데이터 과학을 위한 도구 선택하기 066

처리 용량 및 속도

066

지원 데이터형 및 프로그래밍 환경 데이터 분석 및 시각화 기능

067

문제 특성에 맞는 도구 선택

068

문제 해결 단계에 맞는 도구 선택

069

엑셀로 시작하는 데이터 과학

072

코드가 아닌 데이터가 중심이다

072

073

올인원 솔루션이다

075

결과물을 쉽게 공유할 수 있다

언제부터 엑셀 대신 R을 사용해야 할까 076

워크시트에서 변수로

077

메뉴에서 함수로 분석에서 예측으로 실습

079

엑셀로 데이터 과학 맛보기

데이터 불러오기

082

데이터 준비하기

084

데이터 분석 및 시각화하기 데이터 집계하기 실습

080

086

089

R로 데이터 과학 맛보기

R 작업을 위한 환경 구축 R의 기본 기능

075

093

094

097

15


DATA science

데이터 준비하기

101

데이터 분석하기

104

맺음말

107

Chapter

03

문제 정의와 데이터 수집 및 준비 데이터 문제 정의하기

111

데이터 문제 해결 단계

111

데이터 분석 단계 사례

113

직원 만족도 개선을 위한 데이터 분석 117

데이터 문제 정의하기 사례

넷플릭스 프라이즈 문제 정의

유의사항

122

데이터 수집하기

122

데이터 수집의 기본

123

수집 방법 결정하기

125

측정 기술

128

심화학습

어떤 대상도 측정할 수 있는가 어떤 대상도 측정할 수 있는 방법 수집 환경 결정하기

16

헬로 데이터 과학

131

129 129

119

115


심화학습

134

실험 디자인 136

무작위 디자인

136

블록 디자인

수집할 데이터양 결정하기 유의사항

144

데이터 준비하기

145

데이터 선택, 추가, 집계하기 실습

137

139

데이터 품질 점검하기

147

엑셀을 이용한 데이터 준비

맺음말

151

155

Chapter

04

데이터 분석과 스토리텔링 현상 이해하기 : 탐색적 데이터 분석 탐색적 분석 단계 실습

158

159

엑셀로 해보는 탐색적 데이터 분석

개별 속성 분석하기

171

속성 간의 관계 분석하기

179

유의사항 : 관점은 갖되 편견은 금물이다

현상 일반화하기 : 통계적 추론 통계적 추론의 원리

167

182

183

184

17


DATA science

192

통계적 추론의 유형 실습

엑셀로 해보는 통계적 추론 199

탐색적 데이터 분석

202

데이터 가공하기 통계적 추론

199

203

유의사항 : 데이터에서 도출하는 결론의 가치와 한계

207

현상 예측하기 : 기계학습 기계학습 유형

209

기계학습 개념

211

기계학습 절차

214

사례

스몰데이터로 해보는 기계학습

데이터 스토리텔링

219

데이터 스토리텔링 방법

221

효과적인 데이터 스토리텔링 원칙 사례

18

FiveThirtyEight

서론

225

본론

226

결론

228

맺음말

230

헬로 데이터 과학

224

223

217

206


Chapter

05

개인 데이터로 공부하는 데이터 과학 개인 데이터 활용으로 삶을 바꾸는 사람들 235

개인 데이터의 활용 유형과 목표

237

개인 데이터의 활용 방법 사례

건강 및 식생활 지표화

문제 정의하기

241 246

식사 및 운동량 측정하기

사례

239

240

건강 데이터화 및 개선하기 마치며

252

정성적인 현상(행복)의 지표화

행복을 측정하는 방법 행복 측정의 결과

256

261

267

개인 데이터 수집 및 분석 시작하기 문제 탐색하기 데이터 수집하기

270 271

자신의 경험 공유하기

272

맺음말

268

269

분석 및 결과 실천하기 마치며

253

254

행복 측정 프로젝트

마치며

232

272 273

19


DATA science

Chapter

06

공개 데이터로 공부하는 데이터 과학 277

공공 데이터를 통한 탐색적 분석 문제 정의하기

277

데이터 수집하기 탐색적 데이터 분석

278 281 288

유의사항 : 데이터를 검정하고 목표에 집중하라

289

경연 데이터를 통한 실전 예측 모델링 289

경연 준비하기 : 나도 할 수 있을까

291

캐글 참가자들의 성공 비결

293

캐글에 참여하기 : 타이타닉호 생존자 예측

비즈니스 성장을 위한 데이터 과학 가상사례

식당 운영을 위한 데이터 과학 302

데이터 과학자인 조카의 조언

메뉴의 변화가 매출에 미치는 영향

303

고객의 만족도를 알아내는 방법은 무엇인가

305

고객의 만족도를 알아내기 : 고객 행동 분석

308

실험을 통한 신 메뉴 개발 데이터 활용의 숨은 장벽들

309 310

고객 유입의 단계별 데이터 활용

313

야구 통계를 통해 지표 개발 배우기 야구 통계의 흐름

헬로 데이터 과학

300

301

식당 창업에 도전한 김 사장의 고민

20

299

318

317


야구 통계의 기초와 전통적인 지표들 마치며

맺음말

320 322

현대적인 야구 통계가 가져온 혁신

328 329

Chapter

07

입문을 넘어서 : 데이터 과학자의 길 데이터 과학자로 살아가기

332

검색엔진 분야에서의 데이터 과학

332

데이터 과학 프로젝트의 시작과 끝

337

데이터 과학자의 일상

339

데이터 과학자가 되는 길

339

나에게 어울리는 길인가

343

무엇을 목표로 해야 하나 어떻게 공부해야 하나

346

어떻게 취업을 준비할 것인가

데이터 과학의 미래

347

349

데이터 관련 기술의 진보와 가속화 데이터 과학의 폭넓은 활용

351

데이터 과학자의 수요 증가

351

맺음말

334

349

352

21


DATA science

롤 로

데이터 시대, 나의 역할은?

데이터 혁명은 남의 이야기? 바야흐로 데이터의 시대다. ‘빅데이터’, ‘데이터 과학’과 같은 용어들이 연일 뉴스에 등장한다. 데이터가 토지/노동/자본에 버금가는 가치 창조의 근원이 니, 데이터 과학자가 21세기에 가장 각광받는 직업이라는 주장도 나오고 있 다. 이에 발맞추어 정부 및 각 기관에서는 데이터 과학자를 양성하기 위한 각종 대책을 내놓고 있다. 실제로 분야에 관계없이 앞서가는 개인과 조직은 데이터를 의사결정과 제품 개발에 활용하고 있다. 오바마가 대선 캠페인에서 고용한 데이터 과학 자 팀이 소셜 미디어 등을 분석하여 캠페인 승리에 지대한 공을 세웠다는 이야기는 잘 알려져 있다. 또한 마이크로소프트, 구글, 페이스북과 같은 기 업에서는 검색 및 추천과 같은 데이터를 활용한 제품을 만들고, 또한 이런 제품을 개선하는 데 데이터를 활용함으로써 전 세계 시장을 선도하고 있다. 데이터 혁명은 현재 진행형이다. 지금까지는 소수의 기업이나 개인만이 데 이터를 모으고 처리할 수 있는 수단과 기술을 갖추어왔다. 하지만 IT 기술의 발전은 그 범위를 전 산업과 경제 주체로 확산시키고 있다. 사물 인터넷(IoT : Internet of Things)은

22

헬로 데이터 과학

세상에 존재하는 모든 것에 센서를 부착해서 관련 데이


터를 수집할 수 있게 하는 기술이다. 또한 그 대표격인 웨어러블 기술은 개인 의 모든 활동에 대해 데이터를 수집하고 분석할 수 있는 가능성을 열었다. 이런 트렌드가 우리에게 던지는 메시지는 의미심장하다. 아직 내가 속한 산업에서 혹은 내 주변에서 현재 데이터를 활용하고 있지 않다고 해도, 조만 간 데이터화가 진행될 것이라는 예측이 가능하다. 피할 수 없는 데이터화의 흐름 속에서 자신의 삶과 업무에 데이터를 활용하는 방법을 습득한 개인과 조직은 경쟁에서 우위를 점하게 될 것이다. 직장 내에서도 이런 변화는 유효하다. 기업 내 모든 업무가 데이터화되는 추세 속에서 데이터 기반으로 사고하고 문제를 해결할 수 있는 능력은 큰 차 이를 만들기 때문이다. 고집 센 동료나 상사 때문에 고민하고 있는가? 주관적 의견이 아닌 데이터에 기반한 분석은 어떤 의사 결정권자도 움직일 수 있는 힘을 부여한다. 여기에 멋진 인포그래픽까지 곁들인다면 금상첨화일 것이다. 데이터의 위력은 삶을 바꿔놓기도 한다. 최근 전 세계적으로 자신의 삶 에서 다양한 데이터를 수집하여 이를 통해 건강, 행복, 인간관계를 증진하 는 데 활용하는 사람들이 급속도로 증가하고 있다. 미국에서는 난치병 환자 들을 중심으로 같은 증상을 공유하는 사람들이 각자 데이터를 수집하고 이 를 공유하여 함께 회복을 도모하는 커뮤니티가 활발하게 생겨나고 있다. 이처럼 데이터의 효과적인 활용은 개인 및 조직에게 시장 경쟁에서 승리 하고, 조직에서 인정받으며, 자신의 삶을 바꿀 수 있는 힘을 제공한다. 하지 만 대부분의 사람은 이런 데이터 혁명에 대해 어떻게 느낄까? 당장 내 주변

23


DATA science

롤 로

에서 느낄 수는 없으니 남의 이야기라고 여기고 있지는 않을까? 변화에 뒤 쳐지고 있다는 소외감을 느끼지 않을까? 혹은 뭔가 시작하고 싶지만 어디서 어떻게 시작해야 할지 막막한 것은 아닐까?

삶과 업무를 바꾸는 데이터 과학의 가능성 필자는 미국의 대학원에서 데이터 과학의 첨단을 대표하는 분야인 정보 검 색을 전공하여 박사학위를 받고, 현재 미국 마이크로소프트 온라인 서비스 부문에서 데이터 과학자로 근무하고 있다. 이는 매일 수많은 종류의 데이터 를 접하고, 이를 바탕으로 다양한 분석을 수행하는 일이다. 이런 경험은 앞 에서 언급한 데이터 혁명의 위력과 파급효과를 그 최전선에서 느낄 수 있게 해주었다. 특히 필자가 담당하는 업무는 미국 검색 트래픽의 30%를 담당하는 빙 (Bing.com)

서비스의 품질 측정 및 개선을 위한 데이터 셋과 지표를 만드는 일

이다. 검색엔진 개발의 모든 프로세스는 정량적인 지표에 따라 계획, 실행 및 평가되기 때문에 이는 조직의 방향을 결정하는 일이라고 할 수 있다. 또 한 업무의 일부로 사내에서 데이터 수집 및 분석에 대한 교육을 진행하면서 데이터를 업무에 제대로 활용하기 위해서는 많은 노하우가 필요하다는 사실 을 깨달았다. 보통 데이터라고 하면 일에만 적용하는 것으로 생각하기 쉽다. 그렇지만

24

헬로 데이터 과학


필자는 업무 이외의 영역에서도 데이터를 활용하는 방법을 항상 고민해왔 다. 대학을 다닐 때부터 ‘내가 행복하다고 느끼는 시간의 양을 최대화하는 것’이 인생의 목표 중 하나라고 여겨왔던 필자는 개인의 행복도를 측정하고 개선할 수 있는 방법을 찾기 위해 약 10년간 다양한 방법을 개발하였다. 그 리고 최근에는 생산성, 건강, 인간관계 등 삶의 다른 영역에서도 비슷한 접 근을 시도하고 있다. 미국에는 이처럼 개인 데이터 분석에 관심을 갖는 사람들이 ‘Quantified Self(수치화된 나)’라는 지역별 커뮤니티를 만들어 활동하고 있다. 필자는 2011 년부터 보스턴 및 시애틀의 Quantified Self에 활발히 참여하면서 데이터 분석을 통해 자신의 목표를 달성하고 심지어 삶을 바꾸는 여러 경우를 목격 하였다. 필자의 행복 측정 프로젝트도 여러 사람의 관심을 끌어 최근에 지 역 신문에서 기사화하기도 했다. 이처럼 일과 삶에서 데이터를 활용하는 방법을 고민하면서, 필자는 데이 터 과학이 어떤 특정한 산업이나 직업군의 사람에게만 가능한 일은 아니라 고 확신하게 되었다. 또한 자신의, 혹은 주변의 데이터를 모으고 분석하는 방법에 대한 사례와 노하우를 블로그, 기고문 등을 통해 공유하기 시작했 다. 이런 글들이 여러 사람의 관심과 격려를 받기 시작하면서, 필자는 더 많 은 사람에게 이런 메시지를 전달하기 위한 방법을 고민하기 시작했다. 이 책 은 그런 고민의 산물이다.

25


DATA science

롤 로

우리 모두를 위한 데이터 과학을 꿈꾸며 이 책은 ‘우리 모두를 위한 데이터 과학’을 이야기한다. 필자가 전달하고자 하는 주된 메시지는 우리 주변에 이미 데이터를 수집하고 분석할 수 있는 다양한 수단이 존재하며, 데이터를 활용하여 삶과 업무를 개선하는 일은 결 코 복잡하지 않다는 것이다. 이 책은 초보적인 수준의 통계와 컴퓨터 지식 을 갖춘 보통 사람이 데이터 과학을 시작할 수 있는 방법을 제시하고, 이런 방법을 개인의 삶과 업무에 활용하는 다양한 사례를 소개한다. 불행히도 ‘빅데이터’, ‘데이터 과학’ 등의 용어는 상당히 거창하게 들린다. 적어도 보통 사람이 “나도 한번 해볼까?” 하는 의욕을 갖게 하는 단어는 아 니다. 뭔가 대용량 기업용 컴퓨터도 있어야 될 것 같고, 수학과 프로그래밍 도 알아야 될 것 같고, 적어도 이공계 전공이 아니라면 명함도 못 내밀 것 같다. 하지만 필자는 그렇지 않다고 단언한다. 데이터는 우리의 삶과 일에서 당면한 문제를 해결할 수 있게 도와주는 수단에 불과하다. 사실 우리는 이미 체중계나 통장 잔고 등을 확인하면서 “오늘은 어제보다 체중이 늘었으니 샐러드를 먹어야 하나?”, “아, 이번 달에 는 전기료가 많이 나갔으니 실내 온도를 조정해야겠다” 등의 의사결정을 하 고 있다. 이처럼 데이터에 근거하여 현상을 파악하고 문제를 해결하려는 노 력이 데이터 과학의 시작이다. 하지만 우리는 데이터의 가능성을 최대한 활용하고 있는 것일까? 체중이

26

헬로 데이터 과학


나 온도같이 측정이 손쉬운 경우를 제외하고 삶과 일상의 영역에서 데이터 를 적극 활용하는 사람은 많지 않을 것이다. 또한 우리가 일상적으로 내리는 ‘데이터 기반의 의사 결정’에는 다양한 허점이 있다. 예를 들어 사람의 몸무 게는 그날 그날의 신진대사에 따라 1㎏~2㎏ 정도는 매일 변한다. 따라서 어 제와 오늘을 비교하여 체중이 줄었다고 결론을 내리는 것은 오류의 소지가 있다. 마찬가지로, 전기료가 많이 나올 수 있는 원인은 여러 가지가 있는데, 이를 난방비와 연관 짓는 것은 성급한 일이다. 필자가 생각하는 데이터 과학은 이런 현상을 정확히 이해하고 효과적인 결정을 내리도록 도와주는 수단이다. 앞에서 언급한 체중과 식단의 문제를 다시 생각해보자. 매일매일의 체중변화를 감안하여 일주일 정도 체중을 측 정해서 그 평균값을 보면 실제로 체중이 줄고 있는지를 좀 더 정확하게 판단 할 수 있다. 이때 가급적 같은 시간에 같은 옷을 입고

(혹은 아무것도 입지 않고)

체중을 재면 측정값의 오차를 최소화할 수 있을 것이다. 또한 체중이나 온 도 이외에도 우리 삶과 업무에서 데이터화할 수 있는 영역은 얼마든지 있다. 데이터 분석도 사실 복잡하고 난해한 것은 아니다. 앞서 수집한 데이터 를 엑셀에 넣고 간단한 계산을 하면 평균과 신뢰구간을 구할 수 있다. 만약 채식을 하는 것이 실제로 몸무게를 줄이는지 궁금하다면, 각각 다른 조건에 서 데이터를 모은 후 두 조건의 결과값 사이에 통계적으로 유의미한 차이가 있는지 비교하면 된다. 이 역시 엑셀에서 함수 호출 하나로 끝나는 일이다. 위에서 설명한 데이터 수집과 분석은 중고등학교 수준의 통계 지식과 오

27


DATA science

롤 로

피스 활용 정도의 컴퓨터 실력만으로도 충분히 따라할 수 있는 것이다. 그리 고 이 책에서는 데이터의 수집, 처리, 분석에 이르기까지 내 주변의 문제 해 결에 데이터를 활용하기 위한 방법을 예제와 함께 제공하므로 어렵지 않게 접근할 수 있다. 이제 ‘우리 모두를 위한 데이터 과학’이 어떻게 가능한지 이 해되었으리라 믿는다.

데이터 과학을 시작하는 방법 물론 데이터 과학에는 앞에서 설명한 단순한 데이터 수집 및 분석 작업만 있는 것이 아니다. 사실 최근에 데이터 과학이 조명을 받게 된 것은 ‘빅데이 터’로 대표되는 대용량 데이터의 등장과 이를 활용한 검색 및 추천 등의 데 이터 기반 서비스의 등장에 힘입은 바가 크다. 이런 서비스가 일상화되면서, 많은 사람이 데이터의 활용 범위와 위력을 실감하게 된 것이다. 이는 검색엔 진에서 데이터 과학자로 일하는 필자가 매일 느끼는 부분이다. 하지만 데이터 과학을 공부하는 모든 사람이 이런 것들을 모두 알아야 될까? 필자는 아니라고 단언한다. ‘데이터 과학자’로서 알아야 할 데이터 과 학과 ‘데이터를 삶과 업무에 활용하고자 하는 개인’이 알아야 할 데이터 과 학의 범주는 엄연히 다르기 때문이다. 예컨대 전문가가 아닌 개인이 직접 빅 데이터에서 복잡한 데이터 분석을 하거나, 검색이나 추천 알고리즘 등을 구 현해야 하는 경우는 거의 없지 않을까?

28

헬로 데이터 과학


그렇다면 보통 사람이 데이터 과학을 배워서 활용하기 위한 올바른 접근 법은 무엇일까? 필자는 우선 기술로서의 데이터 과학보다 사고방식으로서의 데이터 과학을 강조하고 싶다. 즉, 데이터 과학의 구체적인 기술을 습득하는 데 초점을 맞추기 이전에, 데이터 기반으로 사고하는 방법을 익혀야 한다는 것이다. 구체적으로 이는 주변에 ‘데이터화’할 수 있는 현상에 항상 관심을 두고 데이터를 사용해 이를 개선할 수 있도록 지속적으로 고민하는 것을 뜻 한다. 또한 새로운 기술이나 제품에 현혹되기보다는 구체적인 목표 달성이나 문제 해결에 초점을 맞추어야 한다. 하루가 멀다 하고 새로운 데이터 처리 기술이나 제품이 쏟아져 나오는 상황에서 이는 쉬운 일이 아니다. 하지만 아 무리 최신 기술이라도 지금 당면한 문제에 도움을 줄 수 없다면 의미가 없 다. 더 구체적으로 필자는 데이터 과학에 관심을 갖는 여러분에게 다음 사 항을 제안하고 싶다. ◆ 문제

정의에서 시작하라. 데이터에 관심을 갖기 시작한 사람들이 범하는 첫 번째 오류는

무작정 데이터부터 모으기 시작하는 것이다. 하지만 이런 접근으로는 어떤 데이터를 얼마 나 모아야 할지, 그리고 모은 데이터를 가지고 무엇을 해야 할지를 판단할 수 없다. 이 책 에서는 문제 정의에서 시작하는, 그리고 문제 해결에 초점을 맞춘 데이터 과학의 방법론 을 제시한다. ◆ 스몰데이터로

시작하라. 문제 해결에 초점을 맞추다 보면 생각보다 많은 데이터가 필요하

지 않다는 사실을 발견하게 된다. 따라서 필자는 ‘스몰데이터’로 시작해야 한다고 말한다.

29


DATA science

롤 로

스몰데이터가 한계를 드러내는 경우에만 빅데이터를 사용하면 된다. 이 책에서는 스몰데 이터에서 출발하는 데이터 과학의 방법론을 제시한다. ◆ 주변에

있는 도구로 시작하라. 데이터 처리 및 분석을 위한 도구가 대부분 개발자 위주로

되어있는 관계로, ‘개발자가 아니면 데이터 과학을 시작할 수 없다’고 생각하기 쉽다. 하지 만 생활 주변의 문제를 해결하는 것이 목적이라면 대용량 데이터를 다루거나 고급 프로 그래밍을 알아야 하는 것은 아니다. 엑셀 등의 스프레드시트만 활용해도 웬만한 분석은 모두 가능하다. 이 책에서는 데이터 과학의 주된 방법을 엑셀로 따라할 수 있는 예제를 제공하며, 좀 더 고급 도구라고 할 수 있는 R에 대한 기본적인 사용법도 설명한다. ◆ 간단한

분석 기법으로 시작하라. 데이터 과학에 대한 또 다른 오해는 복잡한 수학 및 통

계 기법을 알아야 한다는 것이다. 하지만 문제 현상에 대한 데이터를 수집해서 살펴보는 노력만으로도 많은 것을 배울 수 있으며, 대부분의 문제는 신뢰구간의 계산과 같은 간단 한 통계 기법으로 해결할 수 있다. 이 책에서는 데이터 수집의 방법과 함께 꼭 알아야 할 기본적인 통계 및 기계학습 기법을 소개한다.

이렇게 데이터 기반의 사고방식을 익히고, 주변의 문제를 해결하는 데 실제 로 데이터를 활용하기 시작했다면 당신은 이미 데이터 과학자의 길에 들어 선 것이다. 이 책의 뒷부분에서는 실제로 다양한 문제를 데이터를 통해 직 접 해결할 수 있는 방법론과 사례를 제시한다. 또한 데이터 과학자로서의 커 리어를 생각하고 있거나 더 큰 데이터와 복잡한 분석 기법을 공부하고 싶은 독자들을 위한 조언과 학습 자료도 소개한다.

30

헬로 데이터 과학


Chapter 1

데이터 과학 입문 이 장의 목표는 데이터에 대한 오해를 극복하고 데이터 과학에 대한 올바른 개념을 정립하는 것이다. 우선 데이터의 위력을 보여주는 몇 가지 사례를 소개하고, 데이터 과학의 ‘데이터’와 ‘과학’이 각각 무엇을 의미하는지 자세히 알아본다. 그리고 데이터 과학을 시작하기 위한 올바른 마음가짐과 방법에 대해 설명한다. 이 장을 읽고 난 독자들이 ‘데이터 과학은 이런 것이구나’ 하는 깨달음과 함께 ‘나도 시작할 수 있구나’ 하는 자신감을 얻을 수 있기를 바란다.


“데이터가 새로운 과학이다. 빅데이터는 모든 해답을 담고 있다.” _팻 잴싱어

“정량적 데이터만으로 위대한 마케팅 의사결정이 내려진 경우는 단 한 번도 없었다.” _존 스컬리, 펩시 & 애플 CEO

대부분의 사람이 인터넷 기능을 갖춘 모바일 기기를 사용하고, 하루가 멀 다 하고 데이터 관련 기사가 언론에 등장하는 오늘날, 데이터의 중요성을 부 인하는 사람은 거의 없을 것이다. 하지만 위의 두 인용구처럼 데이터에 대한 다양한 시각이 존재한다. 한 쪽에서는 데이터가

(특히 빅데이터가)

모든 문제를

해결해줄 것처럼 이야기하고, 다른 쪽에서는 아직도 인간의 판단력과 직관 력을 신봉하고 있다. 하지만 지나친 낙관론이나 비관론은 현상의 본질을 가리게 마련이다. 필 자의 경험에 따르면 데이터에서 가치를 이끌어내기 위해서는 적절한 데이터 와 접근 방법이 필요했다. 따라서 진실은 양 극단이 아닌 가운데 있다고 볼 수 있다. 이 책의 목적은 독자들이 ‘신화’를 넘어서 데이터를 자신의 삶과 업 무를 개선할 수 있는 실용적인 도구로 받아들이도록 하는 데 있다. 데이터 과학의 대두는 흔히 말하는 ‘빅데이터’의 등장과 밀접한 관계를 지 닌다. 말하자면 과학이라는 오래된 연장이 데이터 폭발이라는 시대의 흐름 을 타고 날개 돋친 듯이 팔린다고나 해야 할까. 통계학자나 데이터 과학자들 은 빅데이터 열풍에 고마워해야 할지도 모른다. 모두가 고리타분하다고 여겼 을 직업을 ‘21세기 최고의 섹시한 직업’1으로 바꿔주었으니 말이다. 하지만 프롤로그에서 언급했듯이 빅데이터 열풍은 자칫 데이터 과학의 1

32

Data Scientist : The Sexiest Job of the 21st Century, http://bit.ly/1Rw3aa9 참조.

헬로 데이터 과학


본질과 그 가능성에 대한 오해를 불러일으킬 여지가 있다. 마치 빅데이터가 데이터의 전부인 것처럼 여기고 빅데이터를 다루지 않으면 제대로 된 데이터 과학자가 아닌 것처럼 생각하는 풍조가 생겨났기 때문이다. 또한 이는 일반 인들이 데이터와 관련된 모든 것을 어렵게 생각하게 하는 결과를 낳았다.

삶과 비즈니스를 바꾸는 데이터의 가능성 데이터 과학에 대한 본격적인 이야기를 시작하기 전에 데이터의 가능성을 보여주는 사례를 몇 가지 살펴보자. 이 사례들은 자신이 직면한 절실한 문제 에서 출발하여, 최소한의 데이터와 실험으로 그 해결 방안을 모색하고, 그 결과를 통해 자신의 삶과 비즈니스를 개선하는 개인과 조직의 모습을 보여 준다. 이들 사례를 통해 데이터가 여러분의 삶과 비즈니스에 어떤 변화를 가 져올 수 있을지를 상상해보자.

의학을 보완하는 개인 데이터의 힘 : 마크 드랭숄트 마크 드랭숄트(Mark

Drangsholt)는

미국 워싱턴대학 치대 구강학과 교수이자

의사다. 보통 의사라면 흰색 가운을 입은 점잖은 이미지를 떠올리지만, 그는 취미로 철인3종경기에 출전하곤 하는 활동적인 인물이다. 하지만 그가 항상 건강했던 것은 아니다. 중년에 접어든 많은 사람처럼 그에게도 비만과 높은 콜레스테롤 수치 등의 이상 징후가 나타났다. 또한 불규칙한 심장 박동과 가 벼운 언어 장애 등 최근 몇 가지 건강 문제를 겪었다. 마크가 선택한 해결책은 의사와의 상담에 더해서 자신의 건강 상태에 대

1장   데이터 과학 입문

33


한 데이터를 직접 수집하여 분석하는 것이었다. 그는 자신의 개인 건강 데이 터 분석에 관한 경험2을 다양한 모임에서 공유해왔으며, 이를 계기로 필자와 도 교류를 쌓아왔다. 마크는 2000년 초에 자신의 건강 상태에 대한 문제의식을 느끼기 시작 했다. 결혼생활을 시작하고 두 아이의 아버지가 되면서 몸무게가 16㎏이나 증가한 것이다. 그는 자신의 건강 상태를 개선하겠다고 마음먹고, 매일 몸무 게와 체지방을 측정함과 동시에 한 번에 한 가지씩 식생활을 개선해나갔다. 그 결과 한 주에 몸무게를 대략 0.3㎏씩 10개월 동안 감량해서 20대의 몸무 게를 다시 회복하는 데 성공했다. 마크에게 이 경험은 개인 데이터의 위력을 직접 실감하게 된 계기였다. 구분

2000년 12월 10일

2001년 3월 17일

2001년 8월 11일

89

84

77

체형사진

몸무게(㎏) 비만지수(BMI)

27.5

26.0

24.0

체지방비율(%)

~26%

~20%

~12%

마크가 발표한 자신의 몸무게 및 체지방 변화 추이

2008년 마크는 간헐적인 심장의 불규칙 박동과 함께 경미한 심장 발작을 경 험하기 시작했다. 그는 이를 방치했다가는 치명적인 심장 발작이 올 수도 있 겠다는 생각에, 심장 발작이 올 때마다 그 직전에 어떤 일이 있었는지, 발작

2

34

Mark Drangsholt : Deciphering My Brain Fog, http://bit.ly/1KENjoH 참조.

헬로 데이터 과학


의 강도는 어떠했는지를 기록하기 시작했다. 그는 이 분석을 바탕으로 자신 의 심장 발작이 대부분 심실상성 빈맥(SVT : supraventricular tachycardias)의 유형 이라는 점, 그리고 격렬한 운동이나 카페인 섭취가 이런 증상의 발생과 관 계가 깊다는 사실을 알았다. 그는 이러한 자가진단 결과를 주치의와 공유했 고, 그의 주치의는 이를 바탕으로 큰 수술 대신에 간단한 절제 시술로 증상 을 개선시킬 수 있었다. 2013년 마크는 다시 건강 문제를 겪었다. 이번에는 뇌에 안개가 낀 것처 럼 어떤 특정한 단어를 기억해내는 데 어려움을 겪는 증상으로, 자칫 학자 로서의 경력에 치명적일 수 있는 일이었다. 그는 우선 의사들과 상담해보았 지만 아무도 뚜렷한 원인을 발견해내지 못했다. 그래서 그는 직접 해결책을 찾아보기로 마음먹었다. 우선 두 차례의 유전자 검사를 통해 그는 자신이 지방 소화력이 취약하며 치매의 위험을 증가시키는 유전자를 가지고 있음을 알게 되었다. 또한 인지 능력 테스트를 통하여 실제로 자신의 언어 능력이 떨어지기 시작했다는 점도 발견했다. 이윽고 그는 자신의 인지 능력과 관련된 식습관, 체중, 콜레스테롤 수치 등 모든 변수를 매일 기록하기 시작했다. 유전자 검사의 결과에 따라 자신이 포화지방을 잘 분해하지 못한다는 사실을 발견했기에, 그는 포화지방이 낮 은 음식으로 식단을 바꾸고, 콜레스테롤 수치를 낮추는 스태틴이라는 약물 을 복용하면서 자신의 인지 능력을 꾸준히 관찰했다. 몇 주 후 그는 자신의 콜레스테롤 수치가 꾸준히 낮아졌으며, 몇 달 후 인지 능력 역시 예전 수준 으로 향상되었다는 사실을 발견했다. 마크의 이러한 결과에 그의 주치의도 놀라움을 감추지 못했다.

1장   데이터 과학 입문

35


140

120

● ●

콜레스테롤 ●

인지기능 자가측정 결과

100

● ●

● ■

80

60 ■

40

■ ■

20 ◆ ◆

◆ 스테틴 복용량

20

13 년 20 13 01 월 년 20 13 02 월 년 20 13 03 월 년 20 13 04 월 년 20 13 05 월 년 20 13 06 월 년 20 13 07 월 년 20 13 08 월 년 20 13 09 월 년 20 13 10 월 년 20 13 11 월 년 20 14 12 월 년 20 14 01 월 년 20 14 02 월 년 20 14 03 월 년 20 14 04 월 년 20 14 05 월 년 20 14 06 월 년 20 14 07 월 년 20 14 08 월 년 09 월

0

마크가 발표한 자신의 콜레스테롤 및 인지 기능 변화 추이

스타트업의 성장 신화를 뒷받침하는 데이터의 힘 : 에어비앤비 이번에는 데이터의 힘을 바탕으로 기록적인 성장을 기록한 스타트업의 사례 를 알아보자. 2007년 샌프란시스코의 값비싼 월세를 감당하기 어렵게 된 디 자이너 브라이언 체스키와 조 게비아는 본인이 사는 집의 여유 공간을 여행 객들에게 유료로 제공하겠다는 아이디어를 냈다. 여기서 출발한 에어비앤비 (AirBnB)는

이제 힐튼 그룹보다 더 많은 예약건수를 자랑하며 하얏트 그룹보

다 높은 시가총액을 자랑하는 공유경제의 상징이 되었다. 에어비앤비의 놀 라운 성장에는 여러 계기가 있었지만, 이들 도약의 바탕에는 데이터 기반의 의사결정이 결정적인 역할을 했다3. 에어비앤비는 출발 자체가 실험의 연속이었다. 창업자 브라이언과 조가 자신의 집에 잘 손님을 모집하기 위한 홈페이지를 만들고, 실제로 개인당 80 3

36

Airbnb : The Growth Story You Didn't Know, https://growthhackers.com/growth-studies/airbnb 참조.

헬로 데이터 과학


Chapter 2

데이터 과학에 유용한 도구 이 장에서는 우선 널리 사용되는 데이터 과학을 위한 도구의 특성을 알아보고, 프로젝트의 특성에 따라 도구를 선택하고 조합하는 방법을 제시한다. 그리고 이중 데이터 과학을 시작하는 사람들이 꼭 알아야 할 도구인 엑셀과 R의 특성과 기본적인 사용법을 설명한다. 이 장의 내용을 바탕으로 독자들이 자신의 문제에 맞는 도구를 선택하고, 각 도구별로 좀 더 심화된 자료를 찾아 공부할 수 있는 준비를 갖추기 바란다.


“보조장치 없는 인간의 지적 능력은 미약하기 짝이 없다. 종이와 펜, 컴 퓨터와 같은 인지보조장치의 사용으로 인간의 기억과 사고력은 극적으 로 향상된다.” _도널드 노먼

사용성(Usability)이라는 개념의 주창자로 유명한 도널드 노먼은 『우리를 똑똑 하게 만드는 것들

Things that make us smart : Defending human attributes in the age

of the machine』(1994)에서

인간의 미약한 기억과 판단력을 보완해주는 인지 보

조장치의 중요성에 대해 언급하고 있다. 이처럼 도구는 단순히 잘 정의된 일 을 수행하는 수단에 지나지 않고 일을 수행하는 우리의 사고 프로세스를 제 한하고 규정함으로써 결과물에 지대한 영향을 끼친다. 데이터 과학에 있어 서도 도구의 중요성은 예외가 아니다. 그렇다면 어떤 도구를 사용해야 할까? 데이터 과학을 위한 도구의 선택 은 문제 해결의 주체, 초점, 문제 해결에 사용될 데이터의 특성 등 다양한 요소에 의해서 결정된다. 문제 해결의 주체인 개인이나 조직이 어떤 도구에 익숙하거나 혹은 배울 수 있는지, 문제 해결의 초점이 어떤 데이터 처리, 분 석, 그리고 시각화 기법을 요구하는지, 마지막으로 데이터의 크기와 특성은 얼마여야 하는지 등도 도구의 선택에 대한 기준이 된다.

데이터 과학을 위한 도구 선택하기 데이터 과학의 과정을 생각해보자. 문제 정의와 데이터 수집이 끝난 이후에 는, 데이터를 불러들여 다양한 형태로 가공하는 데이터 준비 단계를 거치게

64

헬로 데이터 과학


된다. 또한 준비된 데이터에 대해서 다양한 분석을 수행하고 때로는 그 결과 를 프로그램 형태로 구현해야 할 것이다. 마지막으로 그 결과를 이해당사자 와 효과적으로 소통할 수 있어야 한다. 이 모든 프로세스를 완벽하게 지원하는 도구를 찾는 것은 쉽지 않을 것 이다. 따라서 데이터 과학을 공부하는 여러분에게 중요한 능력은 주어진 문 제에 맞는 도구를 선택하고 조합하여 사용하는 것이다. 데이터 수집을 위한 도구는 주어진 문제 및 데이터형에 따라 달라지므로 여기서는 데이터 준비, 분석 및 시각화를 위한 도구에 초점을 맞춘다. 아래 표에서 널리 사용되는 도구의 특성을 살펴볼 수 있다.

기준

스프레드시트 (엑셀)

처리용량

메모리 용량에 제한

응답시간

실시간 ~ 수분

지원 데이터 형태

테이블

프로그래밍 지원

VBScript

제한적인 통계 /

데이터 시각화 기능

제한적인 시각화 지원

통계 및 기계학습 기능

학습 모델 지원

관계형 데이터베이스 디스크 용량에 제한 (예외 : 클러스터 DB)

환경설정에 따라 결정 (OLTP vs. DW)

테이블

내장 프로시저

지원하지 않음

지원하지 않음

R / 파이썬

클라우드

커스텀 코드

메모리 용량에 제한

거의 무제한

구현 방식에 의해 결정

실시간 ~ 수분

수분~ 수 시간

구현 방식에 의해 결정

테이블 / 벡터 / 행렬

거의 무제한 (키-값 / 테이블 /

무제한

비정형)

R function

다양한 언어 지원

대부분의 통계 /

대부분의 통계 /

학습 모델 지원

학습 모델 지원

다양한 시각화 지원

대부분 지원하지 않음

무제한

무제한

무제한

데이터 과학을 위한 도구들

2장  데이터 과학에 유용한 도구

65


처리 용량 및 속도 데이터의 크기가 커질수록 처리 용량은 중요한 조건이 된다. 이 관점에서 보 자면 빅데이터 솔루션의 대표 주자로 각광받는 하둡은 거의 무한대의 용량 을 처리할 수 있으며, 인덱스 및 클러스터 구축 여부에 따라 관계형 데이터 베이스 역시 테라바이트급 데이터를 저장하고 처리할 수 있다. 반면 나머지 도구들은 메모리 한도 내에서 작업이 가능하다. 하지만 1장에서 언급했듯이 이런 처리 용량의 증가는 속도, 즉 응답 시 간(Response

Time)의

하락을 수반한다. 메모리 기반의 프로그램들이 대부분

실시간에 가까운 응답 속도를 보장하는 반면, 실시간 처리에 최적화되지 않 은 대부분의 빅데이터 솔루션들은 요청을 보낸 후 상당 시간을 기다려야 하 기 때문이다. 특히 보통 빅데이터 및 클라우드 솔루션의 경우 조직 전체에서 공유 인프라로 활용되는 경우가 많아 대기 시간이 더 길어지게 마련이다. 그 러므로 필요한 경우가 아니면 데이터 크기를 최대한 줄여 작업해야 하는 것 이 중요하다.

지원 데이터형 및 프로그래밍 환경 아무리 강력한 도구라도 내가 처리하고자 하는 데이터형을 지원하지 않는다 면 무용지물일 것이다. 위에서 언급한 대부분의 도구가 테이블 형태의 데이 터를 처리할 수 있으며, 이들 테이블에는 보통 숫자, 문자열, 날짜 및 시간 등 다양한 데이터형이 포함된다. 또한 스프레드시트를 제외한 대부분의 도 구는 XML, JSON 등 널리 쓰이는 파일 형식을 지원한다. 하지만 이런 표준 파일 형식을 벗어나는 데이터를 다루는 경우 이를 변환하는 별도의 프로그 램을 작성해야 한다. 대부분의 도구는 필요한 경우 새로운 함수를 구현해 사용하는 프로그래

66

헬로 데이터 과학


Chapter 3

문제 정의와 데이터 수집 및 준비 이 장을 통해 독자들이 데이터로 문제를 해결하는 과정이 무엇이고 각 과정에서 어떤 사항에 유의해야 하는지 깨닫게 되기를 희망한다. 내용을 읽고 각 단계별로 소개하는 예제를 따라하다 보면, 배운 내용을 자신의 문제에 적용할 수 있는 능력을 키울 수 있을 것이다. 이 장에서는 데이터 분석 전까지의 과정을, 다음 장에서는 데이터 분석 단계를 주로 다룬다.


“애자일 운동은 방법론을 없애자는 이야기가 아니다. 사실 우리는 ‘방 법론’이라는 말의 신뢰를 회복시키고 싶다.” _짐 하이스미스, 애자일 선언 중에서

어떤 분야가 성숙했다는 증거에는 여러 가지가 있겠지만, 그중 하나로 잘 정 립된 프로세스를 예로 들 수 있을 것이다. 제대로 된 프로세스는 해당 분야 의 업무 흐름과 노하우를 집적한 결과물이기 때문이다. 하지만 소프트웨어 개발 분야에서 무겁고 관료적인 폭포수 프로세스에 반기를 들어 애자일 프 로세스가 탄생했듯이 프로세스 역시 시대의 흐름에 따라 필연적으로 진화 를 거듭하게 된다. 그렇다면 이제 태동하는 분야인 데이터 과학의 프로세스를 어떻게 정의 할 수 있을까? 전통적인 통계학 및 데이터 분석 커뮤니티에서는 데이터 수 집부터 준비, 분석에 이르는 프로세스가 있다. 많은 대학원에서 필수 과정 으로 가르치는 연구 방법론도 이와 크게 다르지 않다. 하지만 아직 ‘이것이 데이터 과학의 정석’라고 내놓을 만한 권위 있는 프로세스가 있는 것은 아니 다(바로 이 부분이 이 장을 쓰면서 필자가 고민했던 부분이다). 그래서 필자가 선택한 접근 방법은 ‘모든 사람을 위한 모든 것’을 지향하 기보다는 대상 독자에 맞춘 프로세스를 소개하는 것이다. 앞에서 밝힌 대로 이 책은 데이터 과학을 자신의 삶과 업무를 개선하는 데 활용하고자 하는 개인을 위해 썼다. 따라서 이 책에서 소개하는 프로세스는 자기 주변에서 데 이터를 활용해 풀 수 있는 문제를 찾아내어 명확히 정의하고, 이를 위한 데 이터를 수집하고, 수집된 데이터를 분석하여 결론을 이끌어내는 과정에 초 점을 맞춘다.

110 헬로 데이터 과학


데이터 문제 정의하기 “만약 나에게 문제 해결을 위해 한 시간이 주어진다면, 나는 55분 동안 문제에 대해 생각하고 5분 동안 해결책에 대해 생각하겠다.” _알버트 아인슈타인

학문적 업적만큼이나 과학에 대한 수많은 명언을 남긴 아인슈타인이 문제 해결에 대해 강조한 것은 문제를 해결하기에 앞서 명확히 정의하는 과정의 중요성이다. 데이터를 통해 문제를 해결하는 경우에도 이는 똑같이 적용된 다. 해결 과정에서의 불확실성이 큰 데이터 문제의 특성상, 제대로 된 문제 정의는 더 중요하다. 이 절에서는 우선 데이터 기반의 문제 해결 과정을 개관하고, 이중 데이 터 분석의 단계를 좀 더 자세히 알아보겠다. 그리고 이를 바탕으로 데이터 문제를 정의하는 과정도 살펴보겠다.

데이터 문제 해결 단계 그렇다면 데이터를 통한 문제 해결의 단계는 무엇일까? 문제 해결의 세부적 인 단계는 문제의 특성에 따라 달라지겠지만, 데이터에 기반한 문제 해결의 일반적인 단계는 다음과 같이 정의할 수 있다. 1 주어진

문제를 명확히 정의한다. 주어진 문제를 정확히 이해해야만 필요한 데이터와 접

근 방법을 결정할 수 있다. 2 문제

해결에 필요한 데이터를 구한다. 데이터가 이미 존재하는 경우에는 기존의 데이터

에서 필요한 부분을 추출하고, 그렇지 않은 경우에는 직접 수집한다.

3장  문제 정의와 데이터 수집 및 준비 111


3 데이터를

분석에 적합한 형태로 가공한다. 수집 및 추출된 데이터는 대부분 적절한 가공

과정을 거쳐야 다양한 분석 작업에 사용할 수 있다. 4 가공된

데이터를 분석하여 해결책을 유도한다.

5 해결책을

여러 가지 방식으로 구현한다.

6 관계자에게

4 번까지가

결과를 적절한 형태로 소통한다.

문제 정의에서 해결책을 유도하는 과정이다. 만약 단순히 해결책

을 찾는 것이 목표라면 여기서 멈출 수 있겠지만, 많은 경우 그 해결책을 현 실 세계에서 구현해내야 한다. 그 과정이

5번

과정이다. 기업 등의 조직 환

경에서 문제를 해결하는 경우에는 문제 해결의 결과를 관계자에게 알리고 적절히 소통하는

6번

작업이 필수다.

물론 현실 세계의 문제를 해결하는 일이 이렇게 단순하게 이루어지지는 않는다. 보통 문제 정의 단계에서부터 다양한 이해당사자와 의견 조율을 거 쳐야 하고, 데이터를 제대로 구하지 못해 목표를 수정해야 하는 경우도 비일 비재하다. 또한 데이터를 분석하다 보면 미처 고려하지 못한 사항을 발견하 거나, 관련된 다른 문제를 발견하기도 한다. 해결책은 찾았지만 구현 및 소 통 단계에서 어려움에 부딪히는 경우도 많다. 따라서 위에서 설명한 단계를 가이드라인 정도로 생각하자. 일반적으로 각 단계가 몇 번은 반복되어야 다음 단계로 넘어갈 수 있기 때문이다. 심지 어는 수집 단계에서의 오류가 분석 단계에서 발견되어 다시 데이터를 모아 야 하는 경우도 드물지 않다. 이런 의미에서 불확실성이 큰 문제 해결의 초 기 단계에 시간과 노력을 많이 기울이는 대신, 가벼운 프로세스를 여러 번 반복하는 것이 해결책에 훨씬 효율적으로 접근하는 방법이다.

112 헬로 데이터 과학


Chapter 4

데이터 분석과 스토리텔링 이 장에서는 본격적인 데이터 분석의 절차를 다룬다. 데이터 분석 과정을 탐색적 분석, 통계적 추론, 기계학습으로 나누어 알아본다. 또한 분석 결과를 소통하여 활용하는 데 핵심이 되는 데이터 스토리텔링의 기술도 살펴본다. 탐색적 분석과 통계적 추론에서는 엑셀 실습을 제공하며, 이 책의 홈페이지에서 같은 내용의 실습을 R 로도 제공하니, 관심 있는 독자는 따라해보기 바란다.


지금까지 데이터 기반의 문제 해결의 단계 중 데이터 문제를 정의하고, 데이 터를 수집하고, 분석을 위해 준비하는 과정을 알아보았다. 이 과정을 통해 문제의 목표와 연구 질문, 가설을 명확히 정의하고, 분석에 적합한 양질의 데이터를 얻을 수 있을 것이다.

현상 이해하기 : 탐색적 데이터 분석 “진정한 발견은 새로운 장소를 찾는 것이 아니라, 새로운 관점을 갖는 것이다.” _마르셀 프루스트

여러분의 컴퓨터에 이제 막 수집된 데이터가 도착했다. 방금 데이터에 대한 기본적인 점검도 마쳤다. 이제 당장 분석 프로그램을 열고 다양한 분석을 시도해보고 싶을 것이다. 하지만 경험 많은 데이터 과학자라면 그렇게 하지 않을 것이다. 그들은 우선 주어진 데이터의 모든 측면을 철저히 이해하려고 노력할 것이다. 데이터 수집 과정에서 세운 모든 가정이 맞는지, 혹시 기대하 지 않았던 새로운 패턴이 발견되지 않는지, 추가적인 데이터가 필요하지 않 은지 등을 알고 싶어 할 것이다. 이처럼 주어진 데이터를 다양한 각도에서 관찰하고 이해하는 과정을 탐 색적 데이터 분석(Exploratory

Data Analysis, 이하 EDA)이라고

부른다. ‘탐색적’이

라는 수식어는 문자 그대로 이 과정을 통해 어떤 것을 발견하게 될지를 미리 예측할 수 없기 때문이다. 탐색적 데이터 분석에 널리 쓰이는 박스플롯1을 1

박스의 위치와 크기를 통해 데이터의 분포를 나타내는 시각화의 일종이다.

158 헬로 데이터 과학


비롯한 수많은 업적을 남긴 통계학의 대가인 존 터키는 탐색적 데이터 분석 이 탐정의 일과 비슷하다고도 말했다. 탐색적 데이터 분석이 필요한 몇 가지 이유가 있다. 1 우선

데이터의 분포 및 값을 검토함으로써 데이터가 표현하는 현상을 더 잘 이해하고,

데이터에 대한 잠재적인 문제를 발견할 수 있다. 2 이를

통해 본격적인 분석에 들어가기에 앞서 데이터를 다시 수집하거나 추가로 수집하는

등의 결정을 내릴 수 있다. 3 또한

데이터를 다양한 각도에서 살펴보는 과정을 통해 문제 정의 단계에서 미처 발생하

지 못했을 다양한 패턴을 발견하고, 이를 바탕으로 기존의 가설을 수정하거나 새로운 가 설을 세울 수 있다. 4 데이터에

대한 이런 지식은 이후에 통계적 추론을 시도하거나 예측 모델을 만들 때 유용

하게 사용된다.

어떤 특정한 결론을 도출하기 위함이 아니라, 데이터에서 최대한 다양한 이 야깃거리를 뽑아내려 한다는 측면에서 탐색적 데이터 분석은 오지로 떠나는 탐험과 같다. 그리고 작업의 특성상 탐색적 데이터 분석의 과정은 명확한 성 공 요건이나 절차를 정의하기 힘들다. 하지만 탐색적 데이터 분석을 위해 거 쳐야 할 최소한의 몇 가지 단계가 있다. 이 절에서는 이 단계에 대해 알아보 고, 이후 실제 데이터 셋을 가지고 이 과정을 실습해보자.

탐색적 분석 단계 탐색적 분석의 자연스러운 출발점은 문제 정의 단계에서 세웠던 연구 질문 과 가설을 바탕으로 분석 계획을 세우는 것이다. 분석 계획에는 어떤 속성 및 속성 간의 관계를 집중적으로 관찰해야 할지, 이를 위한 최적의 방법은

4장  데이터 분석과 스토리텔링 159


무엇인지가 포함되어야 한다. 이를 바탕으로 본격적인 분석을 시작하는데, 우선 주어진 데이터를 전체적으로 살펴보고, 데이터의 개별 속성값을 관찰 한다. 개별 속성에 대한 분석이 이루어진 후에는 속성 간의 관계에 초점을 맞추어 개별 속성 관찰에서 찾아내지 못했던 패턴을 발견할 수도 있다. 그리 고 이런 절차를 데이터에서 흥미 있는 패턴이 발견될 때까지 것이 불가능하다고 판단될 때까지)

(혹은 더 이상 찾는

반복한다.

탐색적 데이터 분석의 주된 수단을 살펴보자. 우선 원본 데이터를 관찰 하는 방법, 다양한 요약 통계값을 사용하는 방법, 마지막으로 적절한 시각 화를 사용하는 방법이 있다. 원본 데이터 관찰은 데이터 각 항목과 속성의 값을 꼼꼼히 관찰할 수 있는 반면 큰 그림을 놓치기 쉽다. 반면에 요약 통계 값을 사용하면 숲은 보지만 나무는 보지 못하는 우를 범할 수 있다. 마지막 으로 시각화에는 다양한 종류가 있는데, 이중 스케터플롯은 나무와 숲을 모두 볼 수 있는 유용한 도구다. 원본 데이터

시각화

요약 통계값

탐색적 데이터 분석에는 원본 데이터, 요약 통계값, 시각화가 모두 필요하다.

따라서 중요한 것은 이 세 가지 방법이 보완적으로, 그리고 순환적으로 사 용되어야 한다는 것이다. 여기서 순환적이라는 말은 원본 데이터를 보다가 의심이 가는 부분이 있으면 적절한 시각화나 통계값을 통해 검정하고, 반대

160 헬로 데이터 과학


Chapter 5

개인 데이터로 공부하는 데이터 과학 이 장에서는 개인 데이터 수집 및 분석의 트렌드와 사례를 소개하고, 필자의 개인 데이터 수집 및 분석 프로젝트 몇 가지를 상세히 다루려고 한다. 개인 데이터 자체로도 다양하고 흥미로운 주제가 많지만 여기서는 데이터 과학을 공부하는 수단으로서 개인 데이터와 이를 통해 해결 가능한 다양한 문제에 초점을 맞추고자 한다. 이 장의 내용을 통해 독자 여러분들이 자기 주변의 문제를 데이터로 해결하는 방법을 배우고 직접 시도해보는 계기가 되기를 바란다.


“나는 아침 6시 20분에 일어났다. 나는 간밤에 두 번 깼으며 심장 박동 은 분당 61회, 혈압은 127/74였다. 나의 기분은 5점 만점에 4점이었다. 나는 지난 24시간 동안 0분 운동을 했으며, 400㎎의 카페인을 섭취하 고 알콜은 섭취하지 않았다. 또한 나의 자만심 지수는 0.31이다.” _그레이 울프(Wired)

1

여러분은 위 글을 읽고 어떤 느낌이 드는가? 한 개인의 생활이 이렇게 데이 터화될 수 있다는 가능성에 눈이 번쩍 뜨이는가? 아니면 이렇게 데이터를 모 아서 뭘 하겠다는 것인지 통 이해할 수 없는가? 믿거나 말거나 이렇게 개인 이 데이터를 모으고 활용하는 추세는 QS 커뮤니티를 중심으로 널리 확산되 고 있다. 이에 따라 개인의 건강, 업무 생산성, 감정, 재무, 인간관계에 이르 기까지 실로 다양한 분야의 데이터를 모으고 분석하는 방법이 계속 생겨나 고 있다. 바야흐로 누구나 자신의 데이터를 모아서 분석할 수 있는 시대가 열린 것이다.

개인 데이터 활용으로 삶을 바꾸는 사람들 옛날부터 사람들은 자신의 삶과 주변에서 일어나는 여러 가지 일을 기록하 고, 이를 통해 배우고 무언가를 향상하기 위해 노력해왔다. 이런 기록은 대 부분 산문(일기) 형태를 띠지만 더 계량화된 접근을 취한 경우도 종종 발견됐 다. 디지털 기기를 이용하지는 않았지만 이런 기록들이 개인 데이터 활용의 원형이라고 하겠다. 1

http://www.wired.com/2009/06/lbnp-knowthyself 참조.

232 헬로 데이터 과학


벤자민 프랭클린이 자신을 다스리기 위해 사용한 표와 일지

1장에서 언급했듯이 벤자민 프랭클린은 자신이 지켜야 할 13가지 원칙을 정 하고, 이를 어겼을 때 위와 같은 형식의 일지에 기록을 남김으로써 스스로 의 인격을 완성할 수 있었다고 자서전에서 밝히고 있다. 20세기 초의 생물학 자 류비셰프는 20대부터 자신만의 시간 기록표를 고안하고, 이를 토대로 자 신의 시간과 에너지를 효과적으로 사용하기 위해 평생 노력했다. 이처럼 분 야에 관계없이 위대한 업적을 남긴 이들은 자신의 역량에 대한 철저한 측정 과 관리를 실천해왔다. 전통적으로 데이터를 활용하여 자신에게 의미있는 무언가를 달성하려는 시도는 특수한 개인이나 직업군에 국한되어 왔다. 데이터 수집과 활용에는 특별한 장비나 노력이 필요했기 때문이다. 하지만 정보기술의 발전에 따라 일반인도 어렵지 않게 개인 데이터를 수집하여 분석할 수 있는 길이 열렸고, 이에 따라 자신의 삶에서 데이터를 수집하여 활용하려는 움직임이 전 세계

5장  개인 데이터로 공부하는 데이터 과학 233


로 확산되고 있다. 그리고 이 트렌드의 중심에는 앞서 소개한 QS 2가 자리하 고 있다. QS는 자신의 삶에서 여러 데이터를 수집하여 분석하고 그 결과를 공유 하는 개인들의 커뮤니티다. QS는 2007년 시작된 이래 현재 약 34개국에 100여 개가 넘는 지역별 그룹을 가진 단체로 성장해왔으며, 2011년부터는 매년 미국과 유럽에서 국제적인 규모의 컨퍼런스3를 개최하고 있다. 이는 개 인 데이터의 활용에 대한 폭발적인 관심을 대변한다. 최근 들어 개인 데이터 수집과 활용에 대한 관심이 늘어난 것은 스마트 폰처럼 어디에서나 자신의 정보를 기록하고 조회할 수 있는 수단이 널리 보 급되었기 때문이다. 실제로 처음 QS가 시작된 2007년은 아이폰이 처음 발 표된 해이기도 하다. 그리고 현재까지 등장한 대부분의 개인 데이터 관련 솔 루션들은 스마트폰 앱이거나, 스마트폰에서 연동할 수 있는 디바이스 형태 를 띤다. 이처럼 개인 데이터 활용은 시작된지 10년도 되지 않아 글로벌 트렌드가 되었지만, 개인 데이터의 가능성은 아직 시작에 불과하다는 것이 대체적인 전망이다. 차세대 디바이스로 각광받고 있는 스마트 와치를 비롯한 다양한 웨어러블 기기의 확산에 따라 언제 어디서나 개인이 직접 데이터를 수집하 고 활용할 수 있는 방법은 점점 늘어만 갈 것이기 때문이다. 개인 데이터 혁 명이 일반 대중에게 본격적으로 확산되는 시기가 다가오는 것이다. 이제부터 QS 활동을 중심으로 개인 데이터 분석의 현황과 흐름을 살펴보자. 이를 통 해 개인 데이터로 현재 무엇을 할 수 있는지, 그리고 그 어려움은 무엇인지 알아본다. 2

http://quantifiedself.com/ 참조.

3

http://conference.quantifiedself.com/ 참조.

234 헬로 데이터 과학


Chapter 6

공개 데이터로 공부하는 데이터 과학 이 장에서는 공개 데이터를 바탕으로 데이터 과학의 적용 사례를 살펴보고, 관련 기법들을 실습한다. 우선 공공데이터를 사용하여 사회 문제의 원인과 해결책을 찾아보는 탐색적 분석의 사례를 소개한다. 그리고 식당을 사례로 비즈니스 성공을 위한 데이터 과학의 방법과 절차를 알아본다. 또한 데이터 과학 문제를 놓고 공개 경연이 펼쳐지는 캐글과 캐글 참가자들의 성공 비결을 알아본다. 마지막으로 데이터 분석이 널리 활용되는 야구 데이터를 분석하는 방법의 발전 사례와 여기에서 배울 수 있는 교훈을 알아본다.


“공개 데이터는 과학 및 사회 전체를 발전시키는 데 매우 중요하다. 연 구 데이터는 다른 용도로 사용되면 그 가치가 늘어난다. 연구의 투명성 은 결과에 대한 대중의 신뢰를 위해서도 중요하다. 연구 데이터 관리는 연구자, 발주자, 연구 기관, 도서관, 그리고 공공의 책임이다.” _공개 데이터 선언1 중에서

데이터 과학의 다양한 활용 사례 중에는 개인 영역을 뛰어넘는 것들이 많 다. 기업, 정부를 포함한 여러 조직의 다양한 문제들에 데이터 기반의 접근 법이 활용되고 있고, 정치, 경제, 스포츠 등 데이터 과학은 온갖 분야에 혁 신을 가져오고 있다. 하지만 전통적으로 이런 활용 사례 및 이에 관련된 데 이터들이 대부분 보안 등의 이유를 들어 공개되지 않는 경우가 많았다. 다행히 최근 들어 정부 및 기업 등에서 데이터 공개에 대한 인식이 높아 지고 있다. 예전에는 관계자 이외에는 볼 수 없었던 다양한 공공 데이터가 일반에 공개되고 있으며, 일부 기업들도 비즈니스 프로세스의 일부로, 수집 한 데이터를 개인정보 암호화 등의 일정한 절차를 거쳐 공개하고 있다. 또한 과학 연구, 언론, 스포츠 등 다양한 분야에서 공개 데이터가 쏟아지고 있으 며, 캐글과 같은 회사에서는 이를 바탕으로 다양한 경연을 개최하고 있다. 공개 데이터 선언에서 밝힌 대로 이런 데이터 공개가 가져다 주는 혜택은 엄청나다. 우선 정부 등 공공 주체의 데이터가 공개됨으로써 관련 업무의 투 명성이 보장된다. 또한 공개된 데이터를 바탕으로 분야에 관계없이 다양한 종류의 혁신이 일어나고 있다. 넷플릭스 사용자들의 영화 선호도 데이터의 공개로 추천 및 기계학습 알고리즘의 발전을 가져왔던 일이나 메이저리그 사 무국에서 경기 데이터를 공개한 결과로 빌 제임스를 비롯한 현대 야구통계 1

The Denton Declaration : An Open Data Manifesto, https://openaccess.unt.edu/denton-declaration 참조.

276 헬로 데이터 과학


학자들의 혁신적인 연구가 가능했던 것이 대표적인 사례다.

공공 데이터를 통한 탐색적 분석 공개 데이터 중 가장 잘 알려진 것이 정부 등 각종 기관에서 공개하는 공공 데이터일 것이다. 몇몇 공공기관에서는 예전부터 데이터를 공개해왔지만, 데 이터 공개에 대한 인식이 확산되면서 점차 많은 기관이 데이터 공개에 동참 하고 있다. 우리가 관심을 가질 만한 대부분의 영역에 공공기관이 존재하기 때문에, 공공 데이터를 잘 활용하면 다양한 데이터를 손쉽게 구할 수 있다. 공공 데이터의 특성상 사회 문제를 다루기에 적합하다. 이번에 다룰 주 제는 우리나라의 자살률이다. 2007년부터 미국에 거주하고 있는 필자는 우 리나라 자살률이 전 세계 1위라는 보도를 접할 때마다 가슴이 철렁하곤 했 다. 관련해서 우리나라의 높은 자살률의 현황과 원인을 분석해보자. 이 과 정에서 다양한 공개 데이터를 찾고 활용하는 방법을 배울 수 있을 것이다.

문제 정의하기 본격적인 분석에 앞서 문제의 목표와 범주를 명확히 정의하자. 자살은 개인 이 내릴 수 있는 선택 가운데 가장 극단적인 만큼, 우리 사회의 어두운 단면 을 반영한 결과일 것이다. ‘우리나라의 높은 자살률’이라는 복합적인 현상에 는 수많은 단편이 있을 텐데, 이중에서 다음과 같이 몇 가지를 자세히 살펴 보는 것이 목표다.

6장  공개 데이터로 공부하는 데이터 과학 277


▶ 우리나라의

자살률은 시대에 따라 어떻게 변화했는가?

▶ 우리나라의

자살률은 계층(성별, 연령대)에 따라 어떻게 변화했는가?

▶ 우리나라의

시대별, 계층별 자살률에 영향을 끼친 요인은 무엇일까?

데이터 수집하기 OECD의 자살률 통계를 실제로 찾아보자. OECD 데이터 홈페이지(https:// data.oecd.org)에

가서 suicide를 검색하면 첫 번째 결과로 자살률(suicide rate)을

찾을 수 있다. 실제로 2012년 통계에 따르면 한국의 자살률이 리투아니아와

함께 1위로 나온다. 자살률 세계 1위의 오명은 엄연한 사실이었다.

OECD 홈페이지의 검색 기능

자살률의 연도별 변화 추이를 확인하기 위해서 타임(Time) 슬라이더를 조정 해서 1990년부터 2012년까지의 자살률을 다음과 같이 선택해보자. 이를 통 해 국가별/연도별 자살률의 변화 추이를 볼 수 있지만, 결과가 모두 회색으 로 표시되어 제대로 구분되지 않는다. 이제 우리나라를 포함한 몇 개 국가

278 헬로 데이터 과학


Chapter 7

입문을 넘어서 : 데이터 과학자의 길 이 장에서는 마이크로소프트 본사에서 데이터 과학자로서 3년간 일해왔던 경험을 토대로 데이터 과학자가 되기 위해 필요한 상세한 학습 및 취업 준비 과정을 다룬다. 그리고 지금도 계속 변화하고 있는 데이터 과학 분야의 미래를 전망해본다.


이 책의 주 독자는 데이터 과학에 관심은 있지만 손쉽게 접근할 엄두를 내 지 못하는 입문자다. 하지만 입문을 넘어서 좀 더 깊게 공부하고 싶은 독자 들도 있으리라 믿는다. 실제로 이 책을 집필하면서 인연이 닿은 독자들 가운 데 상당수는 데이터 과학을 진로로 삼으려는 학생들이거나, 혹은 데이터 과 학 업무를 시작하게 되었거나 시작하려고 하는 직장인들이었다. 이 장은 데 이터 과학에 더 깊은 흥미를 느끼고 데이터 과학자가 되려는 독자들을 위한 내용으로 채웠다.

데이터 과학자로 살아가기 많은 사람이 ‘21세기의 가장 섹시한 직업’이라는 데이터 과학자의 길에 대한 막연한 환상과 두려움을 갖고 있다. 그렇다면 현업에서 데이터 과학자로 일 하는 것은 어떤 느낌일까? 이번 절에서는 웹 검색엔진 분야에서 데이터 과 학자로 일하는 필자의 경험을 소개한다.

검색엔진 분야에서의 데이터 과학 우선 검색엔진의 개발과 운영에 데이터 과학이 어떤 역할을 하는지 자세히 알아보자. 빅데이터와 데이터 과학이 지금의 모습으로 발전하는 과정에서 웹 검색엔진의 역할을 빼놓을 수 없듯이, 반대로 데이터 관련 기술의 혁신적 인 진보와 과학이 없었다면 지금의 검색엔진은 탄생하기 어려웠을 것이다. 다음 그림은 검색엔진 구현의 각 단계와 각 단계에서 필요한 데이터 과학의 기술을 소개한다.

332 헬로 데이터 과학


데이터 수집 (빅데이터 처리)

검색결과 평가 (통계적 추론)

데이터 색인 (빅데이터 저장)

검색결과 생성 (예측 모델링)

검색엔진을 만들기 위한 단계와 여기에 필요한 데이터 과학의 기술

이제 각 단계를 차례로 알아보자. 효과적인 검색 시작은 제대로 된 검색 데 이터베이스를 갖추는 것이다. 웹 검색엔진에서는 이를 위해 웹 전체에서 문 서, 이미지 및 각종 데이터를 모은다. 크롤링이라고 하는 이 작업은 전 세계 에서 지금도 실시간으로 변화하고 있는 웹 콘텐츠를 계속 업데이트해야 하 기 때문에 쉬운 일이 아니다. 크롤링이 제대로 되지 않으면 새로 생기거나 바뀐 웹 페이지가 검색결과에 제대로 반영되지 않는다. 문서를 모은 후에는 검색 질의에 응답할 수 있는 형태로 문서를 저장해 야 한다. 이 작업을 인덱싱이라고 하는데, 보통 책 뒤에 있는 색인을 만드는 작업을 웹에 존재하는 문서 전체를 대상으로 수행한다고 생각하면 된다. 이 역시 웹에 존재하는 문서가 바뀔 때마다 색인을 업데이트해야 하는 어려움 이 있다. 또한 웹 문서 전체를 대상으로 0.2초 안에 검색결과를 내려면 색인 에 엄청난 최적화 노력이 든다. 그 다음 단계로 색인된 문서를 사용자의 질의에 맞게 보여주는 알고리즘 이 필요하다. 이는 사용자 질의어와 위치 및 각 문서에 관련된 기타 정보에

7장  입문을 넘어서 : 데이터 과학자의 길 333


기반하여 몇 조 개가 넘는 문서 중 단 10개를 뽑아야 하는 일이다. 게다가 이 모든 결과를 0.2초 내에, 그것도 실시간의 바뀌는 웹 문서와 사용자의 질 의 의도에 맞추어 만들어내야 한다. 따라서 검색결과를 만들어내는 알고리 즘에는 문서와 사용자 질의에 대한 수천 개의 단서를 사용하여 최적의 결과 를 만들어내는 예측 모델이 사용된다. 마지막으로 검색엔진이 만들어낸 결과가 실제로 사용자를 얼마나 만족 시키는지를 평가하는 작업이 필요하다. 얼핏 검색결과를 만드는 생성 작업 보다는 평가 작업이 훨씬 쉬워 보이지만, 검색결과 평가는 각 질의어의 특성 및 개별 사용자의 취향에 따라 달라질 수 있기에 여기에도 많은 고려가 필 요하다. 이 단계의 목적은 새로 개발된 검색결과가 예전의 결과보다 나은지, 자사의 검색결과가 경쟁사의 결과보다 나은지에 대한 결론을 내는 것이다. 따라서 주어진 데이터로 신뢰성이 있는 의사결정을 내리기 위한 각종 인과 적 분석 기법이 적용된다.

데이터 과학 프로젝트의 시작과 끝 이제부터 본격적으로 필자가 수행하는 데이터 과학 업무의 흐름을 프로젝트 단위로 살펴보자. 필자의 업무는 검색결과의 품질을 평가하는 지표와 평가 기법을 개발하는 일이다. 이러한 평가 결과는 조직 전체의 방향을 결정하고 결정된 방향으로 우리가 얼마나 왔는지를 가늠하는 방향타 역할을 한다. 어 떤 기능의 개선에 투자해야 할지, 개발된 알고리즘 중 어떤 것이 더 좋은 성 능을 보이는지가 모두 평가 데이터를 바탕으로 결정되는 것이다. 검색결과의 평가에는 실제 사용자의 사용 내역을 분석하는 기법과 별도 의 품질 평가단을 통해 수집한 평가자료를 활용하는 기법으로 나눌 수 있

334 헬로 데이터 과학


다. 우선 사용자 데이터를 활용하는 방법은 사용자가 검색결과에 머무는 시 간이나 클릭한 횟수를 활용하는 기법이다. 검색엔진을 사용하는 모든 사용 는 이런 사용 내역을 남기기 때문에 이 데이터만 잘 분석해도 검색 품질에 대한 상당한 정보를 얻을 수 있다. 하지만 사용자 데이터에서 얻을 수 있는 정보에는 한계가 있는데, 예를 들어 사용자가 클릭한 경우라도 실제 문서에 만족했는지 알기는 쉽지 않다. 이런 한계는 평가단의 도움을 받아 채울 수 있다. 이는 얼핏 여론조사나 소비자 만족도 평가와 비슷한데, 좀 더 구체적으로 알아보면 우리가 고용하 거나 크라우드소싱1을 통해 모집한 평가단에게 평가하고 싶은 품질의 질의 어와 검색결과를 보여주고 그 결과의 만족도를 묻는 것이다. 이처럼 평가단 을 통한 검색 품질 평가는 실제 사용자에게서 얻을 수 있는 데이터와는 차 이가 있고, 그 양도 적지만 개별 문서 및 검색 페이지 전체에 대한 고객의 만족도를 세부적으로 알아볼 수 있는 장점이 있다. 이제 필자가 일하는 검색 품질 평가팀의 업무 프로세스를 알아보자. 검 색결과의 평가는 고객의 관점에서 바라본 제품 품질을 내부 개발팀과 소통 하는 것이다. 이런 업무 특성상 필자는 실제 검색엔진 개발을 담당하는 여 러 개발팀과 가깝게 일한다. 그러려면 각 개발팀에서 사용하는 평가 지표에 이상이나 문제가 있을 때 이를 해결하기도 하고, 기존의 평가 기법을 적용하 기 힘든 기능이 새로 개발되면 이에 맞는 평가 기법을 개발하기도 한다. 따 라서 필자의 업무는 주로 이런 내부 고객과의 만남에서 시작되고 이 만남을 시작으로 프로젝트는 시작된다.

1

온라인으로 간단한 작업을 해줄 사람을 구하는 것이다. 대표적인 예로 Amazon Mechanical Turk와 같은 서비스가 있다.

7장  입문을 넘어서 : 데이터 과학자의 길 335


w w w. h a n b i t . c o . k r

이것이 프로그래밍이다! 저자 직강 동영상 제공!

이것이 안드로이드다

이것이 C언어다

이것이 자바다

진정한 안드로이드 개발자로 이끌어줍니다.

세상에 없던 새로운 C언어 입문서 탄생!

가장 중요한 프로그래밍 언어를 하나 배워야 한다면, 결론은 자바다!

SDK 5.0 롤리팝 호환!

삼성, LG에서 펼쳐졌던 전설의 명강의를 풀타임 동영상 강좌로!

중급 개발자로 나아가기 위한 람다식, JavaFX, NIO 수록

이보다 더 확실한 방법은 없다, 칠판강의 전체 동영상 강좌 유투브 전격 공개!

자바의 모든 것을 알려주는 인터넷 강의 궁금한 것은 카페에서!

cafe.daum.net/superdroid

http://goo.gl/tJK3Tu

cafe.naver.com/thisisjava

박성근 저 | 1,164쪽 | 45,000원

서현우 저 | 708쪽 | 25,000원

신용권 저 | 1,224쪽 | 30,000원

책만 보고, 동영상 강좌로도 만족하지 못했다면 Daum 카페 '슈퍼드로이드'에서 만나요


w w w. h a n b i t . c o . k r

지금은 모던 웹 시대!

모던 웹 디자인을 위한

모던 웹을 위한

HTML5 + CSS3 입문 HTML5 분야 부동의 1위 도서

JavaScript + jQuery 입문

HTML5 표준안 확정에 맞춘 완전 개정판의 귀환!

자바스크립트에서 제이쿼리, 제이쿼리 모바일까지 한 권으로 끝낸다!

HTML5 권고안과 최신 웹 브라우저 환경 대응

시대의 흐름에 맞춰 다시 쓴 자바스크립트 교과서

윤인성 저 | 624쪽 | 30,000원

윤인성 저 | 980쪽 | 32,000원

모던 웹을 위한

HTML5 + CSS3 정복

Node.js

프로그래밍 페이스북, 월마트, 링크드인은 왜 Node.js를 선택했는가?

필요한 것만 배워 바로 현장에서 쓰는 HTML5

이 물음에 대한 답은 Node.js가 보여주는 빠른 처리 능력 때문이다.

순서대로 읽으며 실습할 수 있는 HTML5 자습서

윤인성 저 | 484쪽 | 25,000원

김상형 저 | 700쪽 | 32,000원


w w w. h a n b i t . c o . k r

Hanbit eBook

Realtime w w w. h a n b i t . c o . k r / e b o o k

DRM free! 어떤 디바이스에서도 자유롭게

eBook Oriented! 전자책에 꼭 맞는 최적의 내용과 디자인

Hanbit eBook

Hanbit eBook

Realtime 70

Realtime 89 49

MFC 프로그래밍 주식분석 프로그램 만들기 김세훈 지음

Hanbit eBook

Hanbit eBook

Realtime 90

Realtime 92 49

자바 개발자를 위한

Vert.x JavaScript Promise​ azu​지음 /​주우영​옮김

애플리케이션 개발 모바일/웹 메시징 STOMP와 MQTT로 개발하는 IoT 모바일/웹 애플리케이션 Mobile and Web Messaging 제프 메스닐 지음 / 조건희 옮김

이연복 지음


w w w. h a n b i t . c o . k r

즐거운 상상이 가득! 2015년 화제의 신간

즐거운 상상이 가득! 2015년 화제의 신간

전자부품 백과사전 vol.1 찰스 플랫 지음 / 배지은 옮김 / 30,000원

취미공학에 필요한 핵심 전자부품을 사전식으로 정리한 안내서.

전자부품 백과사전 vol.1 찰스 플랫 지음 / 배지은 옮김 / 30,000원

취미공학에 필요한 핵심 전자부품을 처음 시작하는 센서 사전식으로 정리한 안내서. 전자부품 백과사전 vol.2

찰스 플랫 지음 / 가격미정

키모 카르비넨, 테로 카르비넨 지음 임지순 옮김 / 13,000원

세상을 수치로 읽어내는

<전자부품 백과사전> 시리즈의 두 번째 도서다.

부품인 센서를 알려주 는 책. 이 책을 통해 자신

처음 만의 프로젝트에 다양한 Zero to Maker

: 누구나 메이커가 될 수 있다

전자부품 백과사전 vol.2

찰스 플랫 지음 / 가격미정

데이비드 랭 지음 / 장재웅 옮김 / 14,000원

센서를 사용해보자. 키모 카르비넨, 테로 카르비넨 지음 임지순 옮김 / 13,00

세상을 수치로 읽어

일반인에서 메이커로. 날백수에서 무인 잠

<전자부품 백과사전> 시리즈의 두 번째 도서다.

수정 회사 CEO가 된 사나이, 데이비드 랭의 메이커 도전기.

시작하는

Make: 센서

부품인 센서를 알

키모 카르비넨, 테로 카르비 는 책. 이 책을 통해 넨, 빌 발토카리 지음 / 가격미정 만의 프로젝트에 다

필수 전자부품인 센서를 센서를 사용해보자

Zero to Maker

마이크로 컨트롤러 보드

: 누구나 메이커가 될 수 있다 데이비드 랭 지음 / 장재웅 옮김 / 14,000원

Maker Pro 일반인에서 메이커로. 날백수에서 무인 잠 존 베이첼 지음 / 가격미정

수정 회사 CEO가 메이커라면 된 사나이,반드시 데이비드 읽어야 할 필수 계발 랭의 메이커 도전기. 서. 프로 메이커들과의 인터뷰 및 에세이 수록.

에 응용하는 방법을 담 았다.

Make: 센서 키모 카르비넨, 테로 넨, 빌 발토카리 지음 / 가격미정

필수 전자부품인 센 프로젝트로 배우는 라즈베리 파이

도날드 노리스 지음 / 임지순 옮김

다양한 실전 프로젝트를 통해 라즈베리 파이를 쉽고 재미있게 배워본다.

Maker Pro

존 베이첼 지음 / 가격미정

메이커라면 반드시 읽어야 할 필수 계발

마이크로 컨트롤러

에 응용하는 방법 았다.


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.