Очень большие данные
>> 15 Василий Гатов гендиректор инновационного центра «Новые медиатехнологии» РИА Новости «Самые высокооплачиваемые сотрудники в гуманитарной сфере сейчас — data scientists, то есть люди, способные работать с данными и структурировать их, математические лингвисты. Анализируя тексты эсэмэсок, мейлов, банковские транзакции, можно ловить преступников. То, что вскрыл Сноуден, это анализ выхваченных элементов компьютерной коммуникации для борьбы с терроризмом и преступностью. Это также борьба с отмыванием денег. Ведь от того, что сумма в сто долларов переместилась со счета «А» на счет «Б», непонятно, что изменилось, — нужно анализировать отправителя и получателя с точки зрения лингвистических сущностей»
Газета большого города | Выходит ежедневно | №192 (631) | 20 ноября 2013
126
тыс. «чекинов» проанализировала команда «Большого города», чтобы составить интерактивную карту Москвы, показывающую, где проводят свое свободное время жители столицы
Владимир Трефилов/ РИА Новости
>> 7 Лучше, чем Москва
Куда переехать внутри России. Проект «МН»
в центре
2
московские новости №192 20 ноября 2013
Лучшие проекты хакатона Как стать Шерлоком Холмсом, или Что такое журналистика данных и зачем она нужна людям. Спецпроект «МН»
Ж
урналистика данных, как любое новшество, с трудом поддается определению. В новом направлении, которое становится главным медийным трендом, все определяет практика. В этом номере мы расскажем о медийных проектах на основе данных редакторского хакатона, который недавно прошел в Москве. А объяснить, что же такое журналистика данных и какую роль в ней играет рядовой интернет-пользователь, мы попросили Майю Стравинскую, креативного директора студии инфографики РИА Новости, которая отвечает в агентстве за работу с данными. Журналистика данных — довольно странное название. Но с ним придется смириться. А вот с самым простым определением «это карты, инфографика, тексты» смириться нельзя, потому что оно ни о чем не говорит. Есть два хрестоматийных примера, которые могут облегчить задачу. Лондонский врач Джон Сноу в 1854 году усомнился в том, что причиной вспыхнувшей в одном из районов города холеры является «дурной воздух». В 1854 году верили в «миазмы», а еще, говорят, в этом же году родился Шерлок Холмс. Это не лишняя информация, поверьте, лишней информации не бывает. Так вот, Джон Сноу собрал медицинские записи, отметил на карте случаи заболевания и получил наглядное доказательство, что вспышки заболевания случались в местах пересечения водопровода и канализации. Он написал не одну статью, прежде чем его услышали. А в 2010 году газета Las Vegas Sun провела в чем-то похожий эксперимент. В проекте Do no harm журналисты проанализировали почти 3 млн больничных листов и выяснили, какие врачебные ошибки совершались в клиниках и чем заболевали находившиеся там пациенты. Эта визуализация и серия материалов привели к введению шести новых законов, регулирующих сферу здравоохранения в штате Невада. Как вы видите, ничего нового. Что полтора столетия назад, что сейчас. Да и журналисты с момента возникновения профессии пользовались данными. И все-таки сегодня это совершенно новое направление, потому что у этих новых проектов есть три важнейших отличия.
1. Исследование
Цифры, графики, комментарии были всегда, но использовали их избирательно — как улики, как доказательства. То, что делали Вудворд и Бернстайн (американские журналисты, опубликовавшие материалы, приведшие к отставке президента Ричарда Никсона), — это расследование, а то, что делал Джон Сноу и Las Vegas Sun, — это исследование. И тем примечательнее, что в XIX веке его проводил физик, а в XXI — журналисты. Условного Шерлока изъяли из представления — улики должны говорить сами за себя. Причем все сразу, потому что это и есть материал исследования. И таким материалом могут быть статистические данные, отчеты полиции перед муниципальными депутатами, база данных сайта велопарковок, да просто список случаев столкновений официальных властей и современных художников, данные с сайта Мосизбиркома в момент выборов. Чтобы подступиться к этой информации, мало быть журналистом — необходимо быть исследователем, владеющим совершенно определенными навыками. Писать и анализировать уже недостаточно, важно суметь «вынуть» базу, очистить ее, визуализировать и рассказать о выводах пользователю. Ну или объяснить программистам, откуда базу можно достать, и предложить дизайнеру способ визуализации, при этом это сделать нужно на их, дизайнеров, языке. 2. Объективная информация
Как говорил нам великий мистер Холмс: «Факт, факты, факты. Я не могу строить дом без цемента». Так вот базы данных — это объективная информа-
Александр Натрускин/ РИА Новости
что такое хакатон Хакатон (слияние английских слов hack — взламывать и marathon — марафон) — соревнование, в котором команды из программистов, дизайнеров и менеджеров создают совместные продукты в рамках заданной концепции. Термин появился в 1999 году в среде программистов, и изначально на хакатонах соревновались именно команды разработчиков ПО. Сейчас такие состязания проводятся по всему миру, и каждое имеет свою специализацию: определенный язык программирования, приложение, операционная система, программный интерфейс. Хакатон, прошедший в ноябре в пресс-центре РИА Новости, — этап мирового соревнования Editors Lab, посвященного использованию открытых данных (big data) в СМИ. Участие принимали команды из дизайнеров, программистов и редакторов.
1. В редакторском хакатоне, прошедшем в ноябре в пресс-центре РИА Новости, соревновались команды ведущих российских СМИ
ция (не путайте с правдивой), нет необходимости искать «вторую сторону», проблема не в том, чтобы осветить полно, проблема в том, чтобы из этого «полного» высветить главное. То, в чем журналистика данных сейчас развивается активнее всего, — как раз в способе подачи выводов, в сопоставлении не связанных друг с другом слоев информации, в том, как рассказывать историю, а не в новых и новых способах визуализации. И если вернуться к тому же Шерлоку, то работа с данными — это дедуктивный метод нашего времени. 3. Пользователь
И третье отличие: расследования делались для читателей, исследования делаются для пользователей. И это важно, ведь пользователи могут принимать участие в анализе данных. К примеру, когда мы делали
московские новости №192 20 ноября 2013
в центре
3
1
Журналистика данных рассчитана на аудиторию, которая формируется параллельно с нею. Это люди, которые привыкли измерять свою жизнь
бюджетный калькулятор, нам важно было рассказать, как государство тратит деньги конкретного пользователя, пусть в этом и была доля условности. Мы высчитывали, сколько примерно человек вкладывает в «общий котел», на эту сумму накладывали долевое распределение статей консолидированного бюджета и показывали, сколько из твоих денег пошло на оборонку, а сколько на прикладные исследования в сфере рыболовства. Пользователь, таким образом, становился отправной точкой всего проекта. Журналистика данных рассчитана на аудиторию, которая формируется параллельно с нею. Это люди, которые привыкли измерять свою жизнь, будь то рейтинг в соцсетях, или инфографическое резюме с опытом работы, представленным в виде таймлайна, или кластерный анализ его профессиональных связей.
Майя Стравинская креативный директор студии инфографики РИА Новости
над номером работали Продюсер: Артем Костюковский Тексты: Анна Байдакова, Анастасия Петрова, Майя Стравинская
И каждый из них может стать Шерлоком, если ему предоставить пищу для ума. Этот новый пользователь видит живую, пульсирующую информацию, которая постоянно движется. Например, ежедневно приложение Openpath простраивает мои маршруты и формирует из этой информации машиночитаемые дата-сеты. За год сбора данных на Openpath за доступом к моей истории обратилось около десятка человек, двое — студенты из Австралии. Забавный факт, конечно же, что кому-то на другом конце света для того, чтобы сделать курсовую, понадобилась информация о том, как жительница Москвы передвигается по городу. Но в этом-то и азарт, ты никогда не знаешь, где найдешь данные и что нового смогут они тебе рассказать. Именно поэтому можно проводить соревнования по журналистике данных. Программирование и визуализация принесли в это направление массу формальных признаков, по которым можно оценивать проект. Вы можете оценивать эксклюзивность данных, их детализированность, насколько правильно и понятно представлены цифры, нет ли ошибок в визуализации и в конце концов стало ли понятно, о чем тот или иной дата-сет. Еще некоторое время назад на всех медиаконференциях из презентации в презентацию кочевал эпиграф: data is the new oil. Это фраза, превратившаяся в клише, тем не менее справедливо и очень метафорически описывает журналистику данных. Добывать и очищать данные ничуть не проще, очень многое зависит от того, насколько ты овладел навыками и есть ли у тебя чутье, но многое зависит и от удачи. Если бы вы знали, сколько неподтвердившихся гипотез мы выдвинули, сколько тупиковых исследований пришлось провести сотрудникам студии инфографики, сколько лишней работы проделать, пока мы не изучили все инструменты, то вы бы согласились, что понять, что такое журналистика данных, можно только на опыте, в том числе и на чужом. Именно поэтому мы рады были собрать команды ведущих российских СМИ для участия в редакторском хакатоне, который проводит по всему миру Global Editors Network при поддержке Google, а в России еще и при участии МТС. За те два дня, что команды, состоящие из редактора, программиста и дизайнера, работали над проектами, кто-то научился добывать данные, кто-то сошел с дистанции, ктото нашел новый поворот темы, а кто-то и вовсе понял, что же это такое — журналистика данных. Победителем хакатона стало издание «Большой город». Команда поедет на финальный двухдневный международный хакатон в Барселоне в июне 2014 года. Жюри дополнительно отметило работу команды агентства «Татар-Информ. Особого упоминания удостоился и проект газеты «Московские новости».
в центре
4
«Где в России жить хорошо» Команда: «Аргументы и факты»
московские новости №192 20 ноября 2013
Сергей Кондратьев руководитель группы дизайна, инфографики и иллюстрирования департамента по развитию цифрового направления новых медиа «Аргументы и факты» «Наша особенность в том, что мы работаем с регионами, у нас более 35 региональных сайтов. И нашему читателю интересно, хуже или лучше жизнь в соседнем регионе. До этого мы подобными проектами не занимались, но мы понимаем, что это перспективная область и это дает новые возможности рассказывать читателю истории, которые скрыты за огромными массивами данных».
Суть проекта
Пользователю предлагается ответить на ряд вопросов и задать критерии для оптимального места жизни. После этого ему предлагается пять вариантов возможного переезда: на карте от его города расходятся стрелки к возможным городам для миграции. Толщина линии показывает, насколько вариант соответствует критериям пользователя. Можно посмотреть общий рейтинг городов в зависимости от выбранных критериев. Задавая критерии (допустимое расстояние до нового места, численность населения, цены на жилье, уровень зарплаты, безработицы, преступности, обеспеченность детскими садами, больницами, культурный уровень, пробки на дорогах и так далее) можно сравнивать данные своего города и города, в который планируешь переехать. Какие данные использовали
Рейтинг российских регионов института территориального планирования «Урбаника» в Санкт-Петербурге (средний уровень зарплаты, экологическая обстановка и проч.), данные Росстата. Как это поможет людям
Если человек хочет переехать в другой город, тест даст ему приблизительное представление о том, насколько лучше или хуже он будет жить в предполагаемом месте переезда.
Классика жанра. Проект Do no harm («Не навреди») газеты Las Vegas Sun
И л л ю с т р а ц и И. «Аргументы и факты»
московские новости №192 20 ноября 2013
в центре
5
«Пульс» Команда: «Большой город»
Суть проекта
Команда представила интерактивную карту Москвы, которая позволяет изучить, где проводят свое свободное время жители. Проект отслеживает точки активности москвичей на основе «чекинов» пользователей социальной сети «вконтакте». На карте, разбитой на административные районы города, представлены так называемые места силы. Это наибольшая концентрация заведений на определенной площади, где «зачекинились» пользователи. Команда наложила эти данные на такие показатели, как пол, возраст, наличие высшего образования, семейный статус, и др. В результате, переключая фильтры, можно выяснить, какие «места силы» существуют для разных групп горожан — мужчин, женщин, людей после 40, школьников и так далее. Например, из этой карты можно узнать, что одинокие мужчины и одинокие женщины выбирают разные заведения в центре города. С помощью такой карты можно узнать, ходят ли люди в новые модные заведения на окраинах или по-прежнему предпочитают ехать в центр города, чтобы провести свое свободное время.
Данияр Шекебаев онлайн-продюсер проекта «Большой город» «Когда мы выпускали районные блоги, мы сталкивались с одной проблемой: было непонятно, с чем ассоциируют себя горожане на микроуровне. Понятно, что они все считают себя москвичами, но москвичами какого района? Что горожане считают своей идентификацией? Они москвичи хамовнические, краснооктябрьские или
по имени своего любимого кафе? Поэтому мы решили взять эту проблему. Изначально мы хотели наложить муниципальные границы Москвы на социальные. Но математически это было трудно осуществить в рамках хакатона за два дня, поэтому мы решили ухватиться за более простые вещи. И в итоге нас это спасло».
И л л ю с т р а ц и и. «Большой город»
Какие данные использовали
126 тыс. «чекинов», 62 тыс. профайлов «вконтакте». Как это поможет людям
С помощью этого проекта можно проверить различные гипотезы о жизни людей в городе.
Они москвичи хамовнические, краснооктябрьские или по имени своего любимого кафе?
в центре
6
московские новости №192 20 ноября 2013
«Эмоциональный фон твиттера» Команда: «Меркатор» Андрей Скворцов директор и совладелец группы «Меркатор»
Суть проекта
По нескольким десяткам профилей в русскоязычном твиттере вычислили разницу между количеством позитивных и негативных слов в постах, составили графики по дням. Получилась кардиограмма эмоционального фона русскоязычного твиттера. Какие данные использовали
Архивы проекта «Хаб открытых данных» hubofdata.ru, данные твиттера, библиотеки слов позитива и негатива, составленные студентами филфака. Как это поможет людям
Интернет-пользователи могут следить, как меняется настроение главных твиттер-персонажей.
«Мы уже около года занимаемся визуализациями анализа речи, это очень интересная задача. Можно мерить «позитив» и «негатив», «уверенность» и «неуверенность», политические предпочтения, фокус на себе или на группе, общую тематику. Дальше мы планируем подключать все больше словарей, вычислять «грубость» и «интеллигентность», «факты» и «общие слова» и прочее. Твиттер взят еще и потому, что это большие данные прямой речи. Можно анализировать не только отдельных людей, но и целые категории: политиков, госорганы, звезд эстрады, ученых.
Мы не знали, что получится на выходе. Долго подбирали единицы измерения (то ли считать среднее, то ли разницу позитив-негатив, то ли и то и то). Потом думали над «очисткой» данных. В итоге потратили так много времени на анализ и исследования, что доделать собственно визуализационный блок не успели, а это было одним из важных условий хакатона. Но в итоге у нас осталась работающая технология сбора и анализа данных, а визуализатор мы не спеша доделаем. Я уверен, что это будет как минимум интересный инструмент, эмоциональный барометр твиттера».
«Меркатор»
Проект «Аварии с пешеходами в Новосибирске»
Мы уже около года занимаемся визуализациями анализа речи. Можно мерить «позитив» и «негатив», «уверенность» и «неуверенность», политические предпочтения, общую тематику
московские новости №192 20 ноября 2013
в центре
7
«Из Москвы. Россия большая, куда вам переехать?» Команда: «Московские новости»
Суть проекта
Какие данные использовали
По каждому населенному пункту анализировались различные показатели и данные из открытых источников — плотность населения, безработица, средняя температура, средняя зарплата. Индустриальные города отбирались по рейтингам института «Урбаника», а деревни — по рейтингу самых удивительных деревень Forbes. Как это поможет людям
Тем, кто о переезде пока не думает, проект поможет задуматься о том, какой разной может быть Россия, и узнать много нового о других городах.
И л л ю с т р а ц и и. «Московские новости»
Проект поможет москвичу или любому другому жителю страны найти населенный пункт, который подходит ему больше, чем тот, где он сейчас проживает. Сперва, исходя из приоритетов пользователя, проект определяет, куда ему лучше всего переехать — в индустриальный город, провинциальный городок или деревню. Например, если вас больше интересуют деньги, а не экология, то программа предложит мегаполис и индустриальный город. На втором этапе программа попросит уточнить параметры идеального места для жизни (транспортная доступность, зарплатные ожидания, подключение к интернету и сотовой связи, жаркий или умеренный климат, можете ли вы работать удаленно, как часто вы собираетесь ездить за границу и так далее) и выдаст подборку подходящих городов или деревень. При выборе того или иного населенного пункта проект расскажет, почему именно он подходит пользователю и чем он примечателен. Команда анализировала показатели 14 мегаполисов, 13 индустриальных городов, 16 провинциальных городов, 14 деревень и 7 мест для отшельнической жизни.
Филипп Кац редактор студии инфографики РИА Новости «По данным, которые мы собрали, было понятно, что все миграционные пути внутри страны идут от меньшего населенного пункта к большему. Уже на третьем переезде семья или человек наверняка попадут в Москву. По данным за 2011 год, больше половины всех переездов в России — это переезды в Москву. И такой миграционный путь не позволяет людям сравнивать похожие по статусу населенные пункты. Нам было интересно посмотреть, а вдруг с каких-то точек зрения провинциальный городок или даже деревня будут гораздо лучше, чем Москва. Самая большая проблема,
с которой мы столкнулись, — это методологическая, как сохранить объективный и при этом осмысленный проект. Даже по каким-то общим параметрам мы понимали, что не можем сравнивать деревню и город, деревню и маленький городок, маленький городок и мегаполис, потому что от того, куда мы переезжаем, зависят методы оценки. Понятно, что, переезжая в большой населенный пункт, мы не должны задумываться о сотовой связи, но как только мы говорим про деревню, то для нас важным фактором становится наличие сотовый сети и интернета».
в центре
8
московские новости №192 20 ноября 2013
«Закредитованность населения в России» Команда: Агентство экономической информации «Прайм»
Суть проекта
Команда представила интерактивную карту России, которая помогает про анализировать ситуацию с закредито ванностью жителей страны. За основу были взяты данные о кредитах физи ческих лиц по четырем группам — по требительские, ипотечные, автокреди ты и операции по кредитным картам за три последних года. Данные были раз делены на число экономически актив ного населения. На результат команда наложила такие показатели, как сред няя зарплата в регионе, валовый реги ональный продукт, преступность и так далее. В результате с помощью карты можно узнать, например, сколько еще должны выплатить банкам жители каждого региона, где плата по креди там просрочена, в каких регионах си туация наиболее острая и т.д. Команда хотела показать, насколько тяжело кре дитное ярмо для среднего жителя того или иного региона. На карте также есть таймлайн, поэтому все данные можно посмотреть в динамике с 2010 года.
Какие данные использовали
Национального бюро кредитных исто рий и Росстата. Как это поможет людям
Проект помогает человеку задуматься о том, стоит ли ему брать кредиты, ка кое экономическое поведение предпо чтительно, а какое опасно.
Алексей Тиматков редактор дизайн-центра РИА Новости «Мы встревожены обилием публикаций в СМИ, посвященных проблемам россиян, связанных с кредитами, с экономической безграмотностью, которая загоняет их в ловушку. И мы хотели изучить эту тему. Главная сложность заключалась в том, что у нас было всего два дня для полноценного исследования вопроса. Основой послужили данные по кредитам, на которые мы наслоили ряд данных с Росстата. Но получить данные по преследованию заемщиков было сложно. Мы их парсили с сайта РосПравосудие. Нашей главной проблемой было то, что мы набрали слишком много данных и не успели их упорядочить, отведенного времени было мало».
Команда хотела показать, насколько тяжело кредитное ярмо для среднего жителя того или иного региона
Классика жанра. Проект Quoi?
И л л ю с т р а ц и и. Агентство экономической информации «Прайм»
в центре
московские новости №192 20 ноября 2013
9
Эдик Цветцих руководитель департамента дизайна и юзабилити РБК
«2013–2030: как нефть повлияет на зарплату» Команда: РБК
Суть проекта
Какие данные использовали
График зависимости зарплат россиян от цен на нефть. Зарплаты разных профессий с 2008 по 2013 год сравниваются с ценами на нефть марки URALS за тот же период. Получался график зависимости для каждой профессии. Можно проследить, насколько твоя зарплата будет зависеть от колебаний цен на российскую нефть, можно посмотреть отдельно собранные данные для самых зависимых и самых независимых от нефти профессий.
Данные об оплате труда с 2008 по 2013 год с сайта http://fedstat.ru , биржевые о ценах на нефть марки URALS.
И л л ю с т р а ц и И. РБК
Как это поможет людям
Можно рассчитать, какой будет зарплата к 2030 году, если цена на нефть будет меняться согласно плану Минэкономразвития. С помощью рубрикатора можно выбрать интересующие профессии, сравнить зависимости и средние заработки, смотреть на прогноз. Журналист может сделать несколько интересных подборок, например, показать, какие профессии пострадают от инфляции меньше всего, а кому стоит срочно перепрофилироваться.
«Тема была выбрана за несколько дней до хакатона. Минэкономразвития опубликовало прогноз развития экономики России до 2030 года, и мы решили изучить, как будут чувствовать себя люди к 2030 году. Поскольку ВВП нашей страны на 92% определяется ценой на нефть и, судя по прогнозу, эта цифра не изменится (мы на это рассчитывали), решено было взять именно этот показатель. То, чего мы не предвидели: для хакатона и журналист, и дизайнер должны уметь программировать на каком-то уровне, чтобы работа шла быстрее. Одного разработчика оказалось мало, много времени ушло на первоначальную обработку данных».
в центре
10
московские новости №192 20 ноября 2013
«Биографии России» Команда: «Российская газета»
Проект Gay rights in the US, state by state («Права геев в США, штат за штатом»)
Суть проекта
Попытка с помощью интернета актуализировать открытые данные — сверить статистику с живыми людьми. В специальной программе пользователь указывает свой пол, возраст и регион и проходит небольшие визуальные тесты по категориям «семья», «доход», «образование», «работа», «привычки», «отношения с законом». Каждый раз программа показывает пользователю, сколько в его регионе проживает людей с такими же показателями. Например, указав свой доход, программа сообщит вам, сколько ваших сверстников зарабатывают больше. Когда все тесты будут заполнены, программа сообщит, насколько пользователь живет лучше или хуже по сравнению со своими сверстниками в том или ином регионе. Программа также выдаст небольшое предсказание, основанное на статистических данных. Например, покажет, какова вероятность, что пользователь увеличит свой доход в два раза за следующие три года, какова вероятность, что он доживет до 68 лет или станет родителем троих детей.
И л л ю с т р а ц и и. «Российская газета»
Какие данные использовали
Сведения Росстата, всероссийской переписи 2002 и 2010 годов, открытые данные МВД, Минздрава, ВОЗ и многие другие. Как это поможет людям
Для пользователя этот проект может стать, с одной стороны, развлекательным, а с другой — пользователь сможет получать релевантный контент, который ему интересен. «Основная беда всех контент-проектов в том, что они не знают, кто их аудитория. А мы создали панель, которая даст четкое понимание, где живет пользователь, сколько денег он зарабатывает, есть ли у него дети, какое у него образование. Она поможет быстро составить портрет аудитории. В результате пользователя перестанут доставать ненужным ему контентом, а к изданию в очередь выстроятся рекламодатели», — объясняет глава команды «Российской газеты, аналитик сайта rg.ru Евгений Волков.
Евгений Волков аналитик сайта rg.ru «Когда мы получили задание, мы стали изучать всевозможные открытые данные. Оказалось, что не все они полные, их качество не позволяло создать достоверную картину по населению России. Родилась идея попробовать все эти данные дополнить. Если в силу государственной специфики статистика всегда запаздывает, тогда почему бы не создать нечто среднее между ней и быстрым пользовательским вводом».
московские новости №192 20 ноября 2013
в центре
11
«Молоко за вредность» Команда: «РИА Рейтинг» Суть проекта
Анализ экологической ситуации в регионах России в сравнении с экономическими параметрами. Проект помогает понять, получают ли люди, живущие в регионе с плохой экологией, какую-либо компенсацию. Индекс компенсации (индекс молока) состоял из расходов местных властей на окружающую среду, количества врачей на душу населения и средней зарплаты в регионе. А в качестве фактора, разрушающего экологию, разработчики рассматривали только вредные выбросы в атмосферу — транспорт и производство. При этом анализировались данные не регионального уровня, а муниципального, в результате чего команда получила детальную интерактивную карту.
И л л ю с т р а ц и и. «РИА Рейтинг»
Какие данные использовали
Все показатели команда брала из данных Росстата. Как это поможет людям
Глядя на карту, пользователи могут понять, что экология в их районе не такая благополучная, как им казалось. Поняв источник проблемы, жители могут поднять этот вопрос перед региональными или федеральными властями.
Андрей Манько начальник управления анализа финансовых институтов РИА Новости «Нам хотелось разработать более детальную карту. Региональные карты существуют, но нам было интересно спуститься на более низкий уровень — муниципальных образований и городских округов. Такого анализа еще не было, и в этом заключается новаторство проекта. Сложностей было несколько. Во-первых, нам пришлось обработать очень большой объем данных — более миллиона ячеек информации. Во-вторых,
это проблема качества данных, которая до конца не решена. По шести регионам нет данных совсем, например, по Чечне и Ингушетии. Статистика по этим республикам стала появляться только недавно, работа статистических органов на местах еще не отлажена. А в тех регионах, где данные есть, могут быть пропуски по отдельным районам».
в центре
12
московские новости №192 20 ноября 2013
«Порядочное государство. Детские сады» Команда: «Татар-информ»
Суть проекта
Интерактивная тепловая карта обеспеченности детскими садами в Татарстане. На карте можно выбрать конкретный район и посмотреть, насколько хорошо власть решает проблемы, связанные с детскими садами: сколько было жалоб, сколько решили, сколько в работе, а сколько осталось нерешенными. Можно посмотреть количество жалоб и по отдельным садикам. Можно сравнить районы по количеству детских садов. Какие данные использовали
Данные о жалобах на детские сады в рамках государственного проекта «Народный контроль», список детских садов на сайте казначейства РФ. Как это поможет людям
Можно сравнить свой район и тот, в который они хотят переехать, по количеству и качеству работы детских садов.
Максим Толчинский исполнительный директор агентства «Татар-информ» «У нас в республике поменялась система финансирования детских садов, и плата за них увеличилась. Государство покрывает только ее часть, а родители хотят, чтобы плата была ниже. И по этому поводу в Татарстане идет легкая буза, люди протестуют, ходят с плакатиками. Мы захотели наглядно показать, как в реальности обстоят дела, на основе данных самого государства, чтобы никто на эту тему не спекулировал. Кроме того, люди не имеют
адекватного источника данных о количестве детских садов в разных районах республики, а это один из ключевых параметров при переезде. В дальнейшем мы будем развивать проект и охватим все остальные социальные проблемы в регионе: и ЖКХ, и благоустройство, и мобильная связь».
И л л ю с т р а ц и и. «Татар-информ»
в центре
московские новости №192 20 ноября 2013
13
Changing Russia Команда: «Эсквайр»
Суть проекта
Какие данные использовали
Восприятие России в мире на основе статей англоязычной википедии. На карту России нанесены в виде точек упоминания конкретных населенных точек, людей и объектов, которые с ними связаны. К карте прилагается рейтинг статей с наибольшим количеством изменений в течение последних недель, месяцев и лет. Правки, которые вносятся в статьи, отображаются на карте в режиме реального времени в виде флажков с названием населенного пункта на карте. В перспективе можно будет фильтровать данные на карте по языку статьи, по типу (о человеке, об объекте и т.п.). Можно выбрать регион и посмотреть, на какие темы пишут статьи о нем.
Англоязычные статьи википедии, данные правки, а также сайт, который позволяет работать с архивами википедии на разных языках, — http://dbpedia.org/
Как это поможет людям
Можно увидеть, какая информация о России интересует людей больше всего в самой стране и за ее пределами.
Дмитрий Голубовский главный редактор журнала «Эсквайр» «Мы сделали вполне себе рабочий прототип сервиса, который скоро появится у нас на сайте. Мы давно интересуемся википедией как медийным феноменом, феноменом того, как организуются человеческие знания. С одной стороны, она стремится к академизму, с другой — быстро меняется. И это едва ли не самое массовое медиа, по крайней мере, судя по количеству людей, которые принимают участие в составлении статей. Количество правок показывает, насколько
тема острая, насколько она вызывает споры. Интересно, что в рейтинге статей с наибольшим количеством правок довольно высокое место занял Распутин. На первом месте вполне закономерно оказался Путин, а вот дальше всплывают разные странные персонажи, например, в недельном рейтинге на высокой позиции оказался Рокоссовский».
Классика жанра. Проект The Great British class calculator: What class are you? («Британский классовый калькулятор: К какому классу принадлежите вы?») BBC
«Эсквайр»
в центре
московские новости №192 20 ноября 2013
15
Оцифрованные люди
В реальном времени реагировать на такую информацию можно пока только при борьбе с преступностью. В развитом обществе при адекватной криминальной статистике и возможности анализировать коммуникации мы приближаемся к ситуации, когда преступник и полицейский оказываются на месте преступления практически одновременно.
Василий Гатов о том, как большие данные превращаются в большие деньги и большую слежку
С
овременный человек оставляет цифровые «следы» на каждом шагу, и при умелом использовании эта информация помогает зарабатывать деньги, предсказывать результаты выборов и даже предотвращать преступления. Аналитик медиа, генеральный директор инновационного центра «Новые медиатехнологии» РИА Новости Василий Гатов рассказал «Московским новостям», как большие массивы данных можно использовать в бизнесе и государственных делах и почему история со Сноуденом — это только начало. Информация становится картинкой
Василий Гатов аналитик медиа, генеральный директор инновационного центра «Новые медиатехнологии» РИА Новости
Первые большие компьютеры, которые могли работать с большими массивами данных, появились в конце 60-х годов, к концу 70-х стало ясно, как эти данные обрабатывать, а к концу 80-х для этого появилось программное обеспечение — языки управления базами данных. Выборы в США 80-х годов напоминали гадание на кофейной гуще: статистика была, но обрабатывать ее быстро и эффективно не удавалось. В течение 90-х и 2000-х годов она все ближе подходила к реальному времени. А на выборах 2008 и 2012 годов количество данных и способов их обработки выросло до такой степени, что на основе исторических закономерностей можно было предсказать результаты, что и сделал американский статистик Нэйт Силвер. Сейчас активно развивается визуализация данных, и это происходит по двум причинам. Первая — это большое количество, высокое качество и доступность инструментов анализа, вторая — спрос на такой анализ со стороны достаточно заметной части потребителей. Доля людей, которые предпочитают визуальный способ коммуникации, которые лучше воспринимают информацию в виде картинок, растет. А некоторые нуждаются не только в том, чтобы им показывали данные, но и чтобы они могли управлять их отображением, видеть не только усредненную картину, но и то, как она меняется при изменении параметров, — интерактивную инфографику. Взрыв в области инфографики был связан с появлением первых больших иллюстрированных энциклопедий: для нас это Брокгауз и Эфрон, Гранат, для Британии — первые иллюстрированные издания «Британники», для Франции — энциклопедия Галлимара. Но это была ручная и очень медленная работа. Такая иллюстрация могла быть
Арт-директор Антон Степанов Выпускающий редактор Ольга Федянина Ежедневная газета. С 1980 по 2007 год издавалась еженедельно
Первый заместитель главного редактора объединенного издания «Московские новости» Ростислав Вылегжанин
Главный редактор объединенного издания «Московские новости» Владимир Гуревич
Главный редактор бумажной платформы издания «Московские новости» Александр Богомолов
Ответственный секретарь Александр Губанов PrePress-директор Михаил Лебедев Руководитель фотослужбы Оксана Олейник
элементом либо энциклопедии, либо учебника, либо научной статьи. А уже когда появились старшие интерфейсы Windows и MacOS, они стали выдавать визуализацию довольно быстро, и ее можно было сделать элементом газеты или телевизионной картинки.
А как у нас
В России гораздо меньше, чем в Америке, зарегулирована сфера мобильной связи. В США мобильный спам — большая редкость. Было несколько аварий, связанных с получением эсэмэсок: человек ждал какого-то критически важного сообщения и врезался в кого-то, а приходил спам. В Америке инциденты с травмами и гибелью людей чреваты астрономическими суммами для компаний. Поэтому доступ к мобильной рекламе в виде эсэмэсок имеют только операторы. А у нас идет активный обмен базами данных. Банки, например, активно торгуют данными о своих клиентах: чем больше у человека финансовых инструментов, тем больше вероятность, что это обеспеченный клиент. Еще одно полезное применение больших данных — это предсказания, нужные для государства и его сервисов. У нас только в семидесятых годах начали вычислять, где должны находиться станции скорой помощи. И только при Лужкове их начали перемещать в те места, из которых они могут доехать до мест с максимальными концентрациями людей.
Большая польза от больших данных
Современный человек, оснащенный компьютерами, телефонами, планшетами, карточками, датчиками расхода воды в квартире и так далее, сообщает о себе обществу практически все. Когда вы оплачиваете покупку в американском супермаркете, она становится известна всем заинтересованным лицам. Эти данные собираются и в необезличенном виде продаются клиентам. Грубо говоря, производитель вина «Сент-Мишель» прекрасно знает, что я его постоянный покупатель. Поэтому в Америке маркетинг так сильно развит: информация по всем подобным транзакциям доступна. Данные о поведении потребителей предоставляют дватри десятка крупных компаний и сотня мелких. Самые высокооплачиваемые сотрудники в гуманитарной сфере сейчас — data scientists, то есть люди, способные работать с данными и структурировать их, математические лингвисты. Анализируя тексты эсэмэсок, мейлов, банковские транзакции, можно ловить преступников. То, что вскрыл Сноуден, это анализ выхваченных элементов компьютерной коммуникации для борьбы с терроризмом и преступностью. Это также борьба с отмыванием денег. Ведь от того, что сумма в сто долларов переместилась со счета «А» на счет «Б», непонятно, что изменилось, — нужно анализировать отправителя и получателя с точки зрения лингвистических сущностей. Это и анализ электоральной динамики, медиадинамики. Если зрители в Америке начинают ругать какую-то телепрограмму в твиттере, будет ли у нее высокий рейтинг? Например, сценаристы ошиблись в трактовке отношения к персонажу — классическая история с финалом сериала Breaking Bad. То, что финал не получит такого рейтинга, на который рассчитывали авторы, было предсказано по анализу твиттера. Как только из предыдущих серий стало ясно, каким может быть финал, любители довольно быстро поняли, что создатели предпочтут не тот вариант, которого от них ждут. А компания уже продала рекламу в расчете на суперрейтинг. Не получилось.
Автор дизайн-макета Антон Степанов Лого и фирменный стиль Валерий Голыженков Шрифты Brioni и Fedra компании Typotheque
НП «ИД «Время» Генеральный директор Михаил Зайцев АНО «РГ «Новости Москвы» Генеральный директор Тимур Рудников t.rudnikov@mn.ru
Адрес редакции: 119021 Москва, Зубовский бульвар, д. 4.
Отдел рекламы: тел. +7 (495) 645–64–03 Директор по рекламе Наталия Волкова n.volkova@mn.ru Ведущий менеджер Марина Носкова m.noskova@mn.ru
Телефон редакции: +7 (495) 645–64–11. Факс: +7 (495) 645–64–07. E-mail: mn@mn.ru
Доля людей, которые лучше воспринимают информацию в виде картинок, растет Для того чтобы обрабатывать подобную информацию, не нужны большие штаты сотрудников. Помните фильм «Служебный роман»? Там организация, в которой происходит дело, считает что-то про легкую промышленность. А все, что нам нужно знать про легкую промышленность, — это общая численность населения страны. А дальше мы можем предположить, что каждый человек хочет иметь несколько маек, несколько рубашек, несколько пар штанов и так далее. Нужно просто обнаружить эти закономерности. Наш мозг — один из самых совершенных компьютеров, который можно представить. У вас в мозгу такие большие данные, что вы даже не представляете! Записала Анна Байдакова
Отдел маркетинга: тел. +7 (495) 645–65–65 Руководитель отдела маркетинга Светлана Ермоченкова s.ermochenkova@mn.ru Отдел распространения: тел. +7 (495) 645–65–65, факс +7 (495) 637–40–40, distribution@mn.ru Директор по распространению Алла Коломиец
Редакция не несет ответственности за содержание рекламных объявлений и сообщения информационных агентств. Перепечатка материалов «Московских новостей» допускается только по согласованию с редакцией. При цитировании ссылка на «МН» обязательна. Газета зарегистрирована в Федеральной службе по надзору в сфере связи, информационных технологий и массовых коммуникаций (Роскомнадзор).
Регистрационный номер ПИ № ФС77-43175 от 21.12.2010 г. Учредители: ФГУП РАМИ «РИА Новости» и НП «ИД «Время». Отпечатано в ЗАО «ПК«Экстра М», Россия, 143400, Московская область, Красногорский район, п/о «Красногорск-5», а/м «Балтия», 23 км., полиграфический комплекс. Время подписания в печать: по графику — 20:00, фактическое —20:00 Заказ № 13-11-00330 Тираж 25400 Цена свободная
«Еще некоторое время назад на всех медиаконференциях из презентации в презентацию кочевал эпиграф: data is the new oil. Эта фраза, превратившаяся в клише, тем не менее справедливо и очень метафорически описывает журналистику данных. Добывать и очищать данные ничуть не проще, очень многое зависит от того, насколько ты овладел навыками и есть ли у тебя чутье, но многое зависит и от удачи» 2
Майя Стравинская креативный директор студии инфографики РИА Новости