Кейс финал техническая секция cup spb 2015

Page 1

Кейс финала технической секции Changellenge » Cup SPb 2015 «ТТД. Возрождение легенды»


содержание

Часть 1. Введение

3

ЧАСТЬ 2: БОЛЬШИЕ ДАННЫЕ И ИХ ИСПОЛЬЗОВАНИЕ В ФУТБОЛЬНОЙ СТАТИСТИКЕ

8

Феномен Больших Данных

9

Профессиональная футбольная статистика

11

Футбол как игра чисел

14

ЧАСТЬ 3: ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА

16

Корреляция и корреляционный анализ

17

Простая регрессия

19

Нелинейная регрессия

21

Множественный регрессионный анализ

24

Использование программных средств для решения статистических задач

27

ЧАСТЬ 4: Приложения

36


ЧАСТЬ 1: ВВЕДЕНИЕ


ВВЕДЕНИЕ Марк — молодой и очень перспективный спортивный тренер, занятый работой с молодежным составом одного из известнейших футбольных клубов Европы. Будучи прогрессивным и технологически подкованным тренером, он делает все, чтобы современные технологии помогали его команде побеждать. Конечно, многие более опытные футбольные специалисты и обозреватели воспринимают тренерские качества важнейшим залогом сплоченной игры команды и отодвигают технологические средства на второй план, но сейчас все больше внимания уделяется использованию в спорте Больших Данных. Вслед за американскими видами спорта футбол вступает в эпоху Больших Данных. Все более точные системы мониторинга нагрузок спортсменов, набирающие обороты статистические компании и клубные

Введение

научные отделы генерируют так много информации, что спортивная аналитика становится главным футбольным трендом. В структурах клубов появляются аналитические центры, а в тренерских штабах все чаще возникает фигура тренера–аналитика. Футбольному менеджменту аналитика помогает в принятии ключевых спортивных решений, а тренерам — в подготовке команд к соревнованиям. Старое военное правило Сунь–Цзы «тот, кто знает себя и знает врага, не окажется в опасности и в 100 сражениях» приходится по душе и Марку, который считает, что в новой футбольной реальности аналитическая деятельность сосредоточена вокруг двух основных аспектов: • доскональное знание собственной команды • скрупулезное изучение команды соперника

4


История анализа цифр вокруг спорта начинается довольно давно. Само явление технического анализа команды–противника и ее игроков в футболе не так ново, как масштабы, которых позволяют достичь современные информационные технологии. Исторически самым главным аналитиком спортивной деятельности команды был тренер. Валерий Лобановский, к примеру, говорил, что «чувствовал себя не в своей тарелке, если мало знал о тех, с кем предстояло играть» его команде. Он проводил много времени за театральными кулисами, и сравнивал моделирование пьесы на репетициях с моделированием футбольного матча на тренировках, отмечая, что принципиальной разницей является то, что у футбольного матча 2 режиссера. С 50–ых годов «нефутбольные» люди стали предпринимать попытки исследовать игру глубже, чем это получалось у профессионалов. Так, британский бухгалтер Чарльз Рип (Charles Reep) проанализировал за свою жизнь более 2200 матчей, пользуясь лишь ручкой и бумагой. На разбор одного матча у Чарльза уходило 18 часов, за которые он описывал всю цепь событий вокруг мяча в игровое время. На основе

Введение

собранных им данных профессиональный статистик Бернард Бенжамин (Bernard Benjamin) опубликовал ставшее известным научное исследование «Skill and Chance in Association Football» в 1968 году. Основной задачей Чарльза и Бернарда было оптимизировать процесс забивания голов. Их выводы были интересны настолько, что Чарльз Рип до сих пор считается в Англии идеологом игры, основанной на длинных передачах вперед. Однако успех Чарльза все равно не идет ни в какое сравнение со знаменитой историей экономиста Билла Джеймса (Bill James), в которого некогда поверил менеджер Оклэнд Атлетикс Билли Бин (Billy Beane). Об этой бейсбольной истории писатель Майкл Льюис (Michael Lewis) в 2003 году написал книгу, которая взорвала аналитическую бомбу в спортивной индустрии. С тех пор каждый футбольный менеджер мечтает найти спрятанную в статистике правду, а каждый бухгалтер и экономист — создать формулу, которая достанет эту правду для футбольного менеджера.

5


Надо сказать, что футбол имеет ряд специфических особенностей по отношению к другим видам спорта. Редкость голов, динамика игры, вариативность действий — все это усложняет задачу аналитиков отыскать срытую в цифрах правду. В ответ на это футбольная аналитика генерирует все больше цифр. Так, компания Opta в 1996 году начинала свою аналитическую деятельность с кодирования базовых действий вроде передач, ударов и сейвов. На анализ одного повторяющегося в матче действия уходило до четырех часов. Сейчас Opta кодирует более 3000 действий в матче в режиме реального времени. Их данные впоследствии продаются телекомпаниям, футбольным лигам, информационным порталам и болельщикам. На современном аналитическом рынке представлены и более узко–профессиональные компании, которые собирают данные для футбольных клубов: ProZone (Amisco), InStat и т.д. Раньше Валерию Лобановскому приходилось находить оператора команды соперника, чтобы взять у него записи игр. Теперь тренеры смотрят матчи любой команды мира на интернет платформе, статистические компании устанавливают на стадионах системы камер для отслеживания перемещений игроков (Player Tracking) и предоставляют любую статистику не позднее, чем через 24 часа после окончания

Введение

матча, a транснациональные IT корпорации разрабатывают способы поляризации мяча для автоматических расчетов траектории всех его перемещений и дистанции до каждого игрока в режиме реального времени («SAP Sports One»). В наши дни в футбольной аналитике принимают участие тренеры, академики, профессиональные аналитики, букмекеры, журналисты, блоггеры…Они посещают аналитические форумы («MIT Sloan Sports Analytic», «Science and Football», «Sports Analytics Innovation», «OptaPro»), читают книги о спортивной аналитике («The Numbers Game», «Moneyball»), участвуют в обсуждениях на интернет–порталах (например, на «thevideoanalyst. com»), создают и обсуждают алгоритмы просчета данных (вроде «ExpG») и математические модели для предсказания исхода матчей (вроде той, что разработал Мэтью Бенхэм (Matthew Benham) для своей компании Smartodds). Но, несмотря на обилие аналитических отчетов (CIES football–observatory) и всевозможных индексов («Castrol Index», «EA Sports PPI», «InStat Index»), тренер, как правило, не верит статистике. Он лучше всех знает, что в футболе нет победной формулы, и верит только в то, что видит своими глазами. Но он также понимает, что статистика поможет задать правильные

6


вопросы, ответы на которые приблизят его команду к победе. Поэтому Марк все чаще звонит в Opta и просит предоставить дополнительные статистические показатели. Поэтому он привлекает в свой штаб аналитиков, готов эти показатели грамотно оценивать. Поэтому уже через год–два, за счет анализа своих возможностей и возможностей команд соперников, воспитанникам из молодежного состава и продуманным трансфертным решениям клуб Марка должен завоевать титул чемпиона и доказать свою прогрессивность и понимание игры на ультрасовременном уровне. Итак, перед Марком и его командой аналитиков сейчас стоит несколько задач: 1. Проанализировать технико-тактические показатели за первый год и сформулировать гипотезы о том, какие

Введение

из них и каким образом влияют на итоговые результаты команд в чемпионате; 2. Провести регрессионный анализ отобранных показателей и сделать выводы о его результатах: о типе найденных зависимостей, об их силе, об их статистической достоверности, о качестве построенной модели в целом; 3. Предположить, основываясь на разработанной с помощью регрессии функции и на данных за второй год, какие места должны были занять команды, исходя из их статистических показателей; 4. На основе своего предположения и собранных данных по футболистам за 2 сезона, составить список для селекционного отдела клуба из 10 игроков, которые смогут гарантировать наилучший результат клубу в третьем сезоне (при прочих параметрах неизменных по сравнению со вторым годом).

7


ЧАСТЬ 2: БОЛЬШИЕ ДАННЫЕ И ИХ ИСПОЛЬЗОВАНИЕ В ФУТБОЛЬНОЙ СТАТИСТИКЕ


Феномен Больших Данных1 Введение термина «большие данные» относят к Клиффорду Линчу, редактору журнала Nature, подготовившему к 3 сентября 2008 года специальный номер журнала с темой «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объемами данных?». В нем были собраны материалы о феномене взрывного роста объемов и многообразия обрабатываемых данных и технологических перспективах в парадигме вероятного скачка «от количества к качеству»; термин был предложен по аналогии с расхожими в деловой англоязычной среде метафорами «большая нефть», «большая руда».

http://www.tadviser.ru/index.php/Статья: Большие_данные_(Big_Data) 1

данных в 2011-м может составить около 1,8 зеттабайта (1,8 трлн. гигабайт) — примерно в 9 раз больше того, что было создано в 2006-м.

Тем не менее «большие данные» предполагают нечто большее, чем просто анализ огромных объемов информации. Проблема не в том, что организации создают огромные объемы данных, а в том, что большая их часть представлена в формате, плохо соответствующем традиционному структурированному формату БД, — это веб-журналы, видеозаписи, текстовые документы, машинный код или, например, геопространственные данные. Все это хранится во множестве разнообразИтак, что же такое Большие Данные? Согласно отчету ных хранилищ, иногда даже за пределами органиMcKinsey Institute «Большие данные: новый рубеж зации. В результате корпорации могут иметь доступ для инноваций, конкуренции и производительности» к огромному объему своих данных и не иметь необ(Big data: The next frontier for innovation, competition ходимых инструментов, чтобы установить взаимосвязи and productivity), термин «большие данные» относится между этими данными и сделать на их основе значик наборам данных, размер которых превосходит воз- мые выводы. Добавьте сюда то обстоятельство, что можности типичных баз данных по занесению, хране- данные сейчас обновляются все чаще и чаще, и вы нию, управлению и анализу информации. И мировые получите ситуацию, в которой традиционные методы репозитарии данных, безусловно, продолжают расти. анализа информации не могут угнаться за огромными В представленном в середине 2011 г. отчете аналити- объемами постоянно обновляемых данных, что в итоге ческой компании IDC «Исследование цифровой все- и открывает дорогу технологиям больших данных. ленной» (Digital Universe Study), подготовку которого спонсировала компания EMC, предсказывалось, что В сущности, понятие больших данных подразумеобщий мировой объем созданных и реплицированных вает работу с информацией огромного объема

Большие данные и их использование в футбольной статистике

9


и разнообразного состава, весьма часто обновляемой и находящейся в разных источниках в целях увеличения эффективности работы, создания новых продуктов и повышения конкурентоспособности. Консалтинговая компания Forrester дает краткую формулировку: «Большие данные объединяют техники и технологии, которые извлекают смысл из данных на экстремальном пределе практичности». Несмотря на то, что термин вводился в академической среде, и прежде всего, разбиралась проблема роста и многообразия научных данных, начиная с 2009 года термин широко распространился в деловой прессе, а к 2010 году относят появление первых продуктов и решений, относящихся исключительно и непосредственно к проблеме обработки больших данных. К 2011 году

Большие данные и их использование в футбольной статистике

большинство крупнейших поставщиков информационных технологий для организаций в своих деловых стратегиях используют понятие о больших данных, в том числе IBM, Oracle, Microsoft, Hewlett-Packard, EMC, а основные аналитики рынка информационных технологий посвящают концепции выделенные исследования. В 2011 году Gartner отмечает большие данные как тренд номер два в информационно-технологической инфраструктуре (после виртуализации и как более существенный, чем энергосбережение и мониторинг). Прогнозируется, что внедрение технологий больших данных наибольшее влияние окажет на информационные технологии в производстве, здравоохранении, торговле, государственном управлении, а также в целом ряде других отраслей и сфер жизнедеятельности человека.

10


Профессиональная футбольная статистика2 Профессиональная футбольная статистика — элемент современного профессионального футбола, служащий для совершенствования тренировочного процесса и контроля качества индивидуальной и командной игры. Важной вехой развития данного элемента аналитики футбольного матча можно считать введение математической обработки статистического материала, характеризующего действия отдельных игроков. Она стала

учитывать не только количество совершенных технико– тактических действий, но и их позиционные и временные характеристики. Впервые данная методика была применена на чемпионате мира 1966 года в Англии. В усовершенствованном виде она применяется до настоящего времени и носит название «Castrol Performance Index». Ежегодно под патронажем ФИФА выпускаются «Castrol Performance Index» лучших игроков ведущих футбольных первенств Европы.

Лучшие игроки по версии «Castrol Performance Index» на июль 2015 г. Положение

Игрок

Позиция

Страна

1

KROOS ROBBEN DE VRIJ HUMMELS MULLER BENZEMA

Midfielder Forward Defender Defender Forward Forward

Германия Голландия Голландия Германия Германия Франция

2 3 4 5 6 2

Значение индекса

9.79 9.74 9.70 9.66 9.63 9.60

Еженедельник «Футбол» №25-27, 2012 г.

Большие данные и их использование в футбольной статистике

11


Параллельно с развитием профессионального футбола совершенствовалась и профессиональная футбольная статистика, а также методы ее регистрации и аналитика на ее основе. В настоящее время простой подсчет тех или иных игровых показателей футбольного матча, выполняющих группой статистов, постепенно отходит на второй план. Он часто не удовлетворяет требованию объективности, так как на него влияет субъективный человеческий фактор. На его место пришли методики фиксации действий игроков с использованием дорогостоящего видеооборудования, технических средств наблюдения и теории распознавания объектов.

ProZone стали ведущие футбольные клубы. Отдельно следует отметить использование методов оптических наблюдений систем GPS для определения скоростных и дистанционных характеристик футболистов. Несмотря на постоянное совершенствование методов сбора статистической информации, футбольные аналитики и простые любители игры обращали внимание на частое несовпадение командных и индивидуальных рейтингов и индексов, предоставляемых различными компаниями реальному качеству игры.

К примеру, статистика отдельных матчей первенПо мере совершенствования телевизионных техноло- ства ФНЛ могла быть сопоставима со статистикой гий развивался программный метод сбора и анализа матчей грандов европейского футбола. Для выхода статистики матча, который заключался в сканирова- из этого положения стали вводить «задним числом» нии видео изображения футбольного матча. Одним различного рода поправки в оценку качества игры из пионеров в использовании технологии технического в зависимости от того кто играл и в каком первенстве. зрения следует отнести английскую компанию ProZone. Получалось, что не только сама игра, но и наименоДля получения статистики матча и ее анализа Prozone вание команды и турнира непосредственным образом использует камеры видеонаблюдения, установленные по влияли на итоговую оценку качества матча. Это обстопериметру футбольного поля. Большой вклад в станов- ятельство абсурдно с точки зрения любой математичеление компании внес бывший главный тренер сборной ской логики. В результате пришлось признать, что сама Англии Стив Макларен, который один из первых стал по себе командная и индивидуальная статистика использовать видеоизображение для статистического футбольного матча не дает однозначной и объеканализа действий игроков. Со временем клиентами тивной оценки качества игры. В связи с этим компа-

Большие данные и их использование в футбольной статистике

12


нией «CraftSoft» была предложена методика статистической аналитики футбольного матча, основанная на построении его строгой динамической математической модели. Различные оценки качества игры рассчитывались в реальном времени с помощью сложных математических расчетов с учетом множества динамических параметров, в том числе таких, как качество игры соперника, ее динамика в ходе матча, цель игры и ее изменение, хозяин поля, качество поля и т. д.

ным тренерам мобильно анализировать качество игры непосредственно в процессе матча.

Наконец в 2011 году та же компания представила на суд футбольной общественности программу управления матчем в реальном времени, созданную на базе футбольных теплограмм основных игровых показателей. Эта программа была признана помочь футболь-

Таким образом, футбольная статистика постепенно превращается в отдельный элемент футбольного матча со своей научной и технологической базой, которая используется как профессиональными тренерами, так и любителями спорта.

Большие данные и их использование в футбольной статистике

Необходимо отметить и развитие доступности профессиональной футбольной статистики. Этому способствует рост количества статей и сайтов, посвященных данной тематике. Ее популяризации способствует и постоянное ее использование в трансляциях футбольных матчей.

13


Футбол как игра чисел3 Нечестно было бы назвать современные аналитические изменения в футболе революцией, но все же это несколько больше, чем эволюция. Вероятно, наилучшее слово — «реформация»: игра остается той же, но играют в нее по-другому. И сейчас самая интересная стадия этого процесса, когда каждый день, каждую неделю, каждый год могут открываться новые аспекты, когда прогресс происходит стремительно, каждый день уходя дальше от уровня работ человека, которого можно считать первым футбольным аналитиком — Чарльза Рипа. Сейчас, когда каждый может стать исследователем благодаря доступности софта и скорости компьютеров, его теории можно высмеивать и развеивать, но прежде, чем пытаться начать анализировать информацию самостоятельно, важно о них больше узнать.

Дэвид Сэлли, Крис Андерсон «Игра чисел: почему все, что вы знаете о футболе, неверно», 2013

3

Его исследования показали, что некоторые аспекты игры действительно подчиняются строгим и стабильным числовым моделям. В частности, он выяснил, что команды в среднем забивают одним из девяти ударов. Они узнали, что шансы команды на удачный пас, в общем, несильно отличаются от шансов на то, что выпадет орел или решка, — около 50%; но эти шансы уменьшались с каждой удачной передачей. Они установили, что футбол — по-своему неопределенный, случайный процесс: один

Большие данные и их использование в футбольной статистике

из девяти ударов становился голевым, но никто не знал, какой именно. Еще одно открытие: футбол — игра, в которой постоянно теряют мяч. Подавляющее большинство выходов команды в атаку заканчивалось после нуля или одной удачной передачи, а 91,5% не достигали четвертого успешного паса. Лишь 8,5% попыток содержали более чем три передачи. Такие тенденции наблюдались в большинстве матчей, которые просмотрел Рип, и даже сегодня в матчах происходит более чем впечатляющее, количество перехватов. Рип обнаружил еще один краеугольный камень современного футбольного мышления: 30% отборов мяча вблизи штрафной площадки противника приводили к голу, и половина всех голевых ударов проводилась после таких случаев. Когда Ливерпуль подписал Стюарта Даунинга и Джордана Хендерсона летом 2011 года, более 60-ти лет после того, как Рип создал свою систему, эту пару пригласили именно благодаря количеству отборов, которые они совершали неподалеку от ворот соперника. Кроме того, среди занимательных фактов (вроде того, что в европейских чемпионатах чаще всех желтые карточки получают футболисты из стран, где есть открытые гражданские конфликты: Израиль или Колумбия,

14


например) есть и настоящее разоблачение угловых. К примеру, статистика показывает, что угловые вообще не влияют на ход среднестатистического европейского матча. Средняя результативность команды не меняется от того, подаст она один угловой или 10 за матч. Изучив 1434 угловых в английской Премьер-лиге, ученые выяснили, что в среднем из 100 угловых к голам приводят 2,2 подачи в штрафную — то есть в среднем каждый 50-й угловой заканчивается взятием ворот.4 Похожая статистика и в других чемпионатах, о которых стереотипно принято считать, что там здорово играют головой. В 2013 году за пять первых туров чемпионата Норвегии было подано 352 угловых, и лишь четыре из них (1,14%) привели к забитым мячам. Таким образом, можно прийти к выводу, что лучше разыгрывать угло-

вые с партнером, чтобы сохранить мяч и возможность создать момент с игры, чем без толку загружать мяч в штрафную раз за разом. Тем более что в условиях современного контратакующего футбола потеря мяча на чужой половине, когда оба центральных защитника находятся в 30 метрах от своих ворот, грозит голом в обратную сторону. Авторы книги сообщают, что 80% в европейских лигах забивается в контратаках, длительность которых от потери мяча до момента удара не превышает в среднем 10 секунд и четырех пасов. С тех пор, как был опубликован труд Чарльза Рипа, прошло уже много времени, и много новых теорий появилось на свет, но кто знает, какие из них верны для каждого конкретного чемпионата.

http://www.championat.com/football/article217614-kak-statistika-oprovergaet-futbolnyemify.html

4

Большие данные и их использование в футбольной статистике

15


ЧАСТЬ 3: ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА


Корреляция и корреляционный анализ

Если наш тренер взглянет на окружающий его мир, он, несомненно, найдет вещи, которые будут ему казаться взаимосвязанными, но точного объяснения этому он не будет знать. Например, количество сообщений с его школьными друзьями в Фейсбуке с каждым годом все уменьшается (см. рисунок). С научной точки зрения, подозрения тренера называются гипотезой о наличии корреляции.

Основы регрессионного анализа

Формально, корреляция — статистическая взаимосвязь двух или нескольких случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом, изменения одной или нескольких из этих величин приводят к систематическому изменению другой или других величин. Математической мерой корреляции двух случайных величин служит коэффициент корреляции.

17


Корреляция может быть положительной и отрицательной (возможна также ситуация отсутствия статистической взаимосвязи — например, для независимых случайных величин). Отрицательная корреляция — корреляция, при которой увеличение одной переменной связано с уменьшением другой переменной, при этом коэффициент корреляции отрицателен. Положительная корреляция — корреляция, при которой увеличение одной переменной связано с увеличением другой переменной, при этом коэффициент корреляции положителен. Коэффициент корреляции или парный коэффициент корреляции в теории вероятностей и статистике — это показатель характера изменения двух случайных величин. Коэффициент корреляции обозначается латинской буквой R и может принимать значения между –1 и +1. Если значение по модулю находится ближе к 1, то это означает наличие сильной связи (при коэффициенте корреляции равном единице говорят о функциональной связи), а если ближе к 0, то слабой.

сравниваются коэффициенты корреляции между одной парой или множеством пар признаков для установления между ними статистических взаимосвязей. Цель корреляционного анализа — обеспечить получение некоторой информации об одной переменной с помощью другой переменной. В случаях, когда возможно достижение цели, говорят, что переменные коррелируют. В самом общем виде принятие гипотезы о наличии корреляции означает что изменение значения переменной А, произойдет одновременно с пропорциональным изменением значения Б: если обе переменные растут то корреляция положительная, если одна переменная растет, а вторая уменьшается, корреляция отрицательная.

В случае с количеством сообщений школьным друзьям в Фейсбуке у тренера, очевидно, между переменными существует отрицательная взаимосвязь, при этом, линейная оценка этой взаимосвязи оказывается достаточно точной (>0,9) и предсказывает, что к 12 Корреляционный анализ — метод обработки статисти- году после окончания школы общение со школьными ческих данных, заключающийся в изучении коэффи- друзьями должно сойти на нет. Но это, конечно же, циентов (корреляции) между переменными. При этом не совсем так.

Основы регрессионного анализа

18


Простая регрессия

Регрессионный анализ — статистический метод исследо- Цели регрессионного анализа могут быть следующими: вания влияния одной или нескольких независимых пере- • Определение степени детерминированности вариаменных X_1, X_2, ..., X_p на зависимую переменную Y. ции критериальной (зависимой) переменной предиктоНезависимые переменные иначе называют регрессорами рами (независимыми переменными) или предикторами, а зависимые переменные — критери- • Предсказание значения зависимой переменной альными. Терминология зависимых и независимых пере- с помощью независимой(–ых) менных отражает лишь математическую зависимость • Определение вклада отдельных независимых переменных в вариацию зависимой переменных, а не причинно–следственные отношения.

Основы регрессионного анализа

19


Перед началом применения этого инструмента важно понимать, что регрессионный анализ нельзя использовать для определения наличия связи между переменными, поскольку наличие такой связи и есть предпосылка для применения анализа. Поэтому при выборе переменных–предикторов всегда важно обосновать способы и причины их влияния на зависимую переменную. На практике линия регрессии чаще всего ищется в виде линейной функции Y=b_0+b_1X_1+b_2X_2+...+b_ NX_N (линейная регрессия), наилучшим образом приближающей искомую кривую. Делается это с помощью

Основы регрессионного анализа

метода наименьших квадратов, когда минимизируется сумма квадратов отклонений реально наблюдаемых Y от их оценок Y^ (имеются в виду оценки с помощью прямой линии, претендующей на то, чтобы представлять искомую регрессионную зависимость). В примере с сообщениями выше, уравнение прямой, описывающее наблюдаемую закономерность, выглядит следующим образом: y = -44,964x + 536. Это означает, что с каждым годом (увеличением х на 1) количество сообщений между школьными друзьями в Фейсбуке уменьшается в среднем на 45 штук (у уменьшается на 44,964). При этом точность модели, измеряемая показателем R2, превышает 0,9.

20


,

Нелинейная регрессия 10,0 9,0 8,0 7,0 6,0 5,0 4,0 3,0 2,0 1,0 0,0

y = -0,008x2 + 0,4699x + 2,9688 R² = 0,9301

0

5

10

15

,

20

25

30

35

Параметры корреляции и простая регрессия, описанная выше, отражают лишь линейную зависимость величин, но не отражает их функциональной связности. Например, если вычислить коэффициент корреляции между величинами A = sin(x) и B = cos(x), то он будет близок к нулю, т. е. зависимость между величинами, якобы, будет отсутствовать. Между тем, величины A и B очевидно связаны функционально по закону sin2(x) + cos2(x) = 1. Но это сложный случай. Начать следует

Основы регрессионного анализа

40

45

50

.

с простых нелинейных закономерностей. Например, по наблюдениям главного героя кейса, спортивная форма футболиста (выраженная в данном случае в количестве пройденных километров за время игры) на игре параболически зависит от количества времени, которое он тратит на физическую подготовку в ту неделю, когда у него игра. Так, при малом количестве нагрузки футболист не успевает набрать оптимальную форму, а при чересчур большой — у него не остается сил на игру.

21


Для выбора и обоснования типа кривой регрессии нет универсального метода. Односторонняя стохастическая зависимость между явлениями может быть описана, например, с помощью полиномиальной регрессии:

явлениями часто судят по внешнему виду эмпирического графика регрессии. Однако при малом числе наблюдений этот путь приводит к неудовлетворительным результатам, так как резкие зигзаги эмпирической (ломаной) линии регрессии затрудняют выявление закономерности.

либо с помощью гиперболической регрессии:

В каждом случае следует проверять возможность применения линейной регрессии хотя бы на ограниченном участке изменения переменных. И наконец, необходимо обращать внимание на то, чтобы оценки регрессии производились с достаточной степенью надежности.

Применяются также степенная, показательная, логарифмическая и тригонометрическая функции. Подбор функции регрессии должен производиться с применением теории той конкретной науки, на базе которой возникает задача измерения связи между явлениями. Чаще всего используются семейства кривых, уравнения которых выражаются многочленами целых положительных степеней. Полином первой степени (прямая линия) не имеет изгибов (представляя собой линейную регрессию). С помощью полинома второй степени можно передать одну точку поворота функции. Полином третьей степени отражает две точки поворота функции. О характере зависимости между экономическими

Основы регрессионного анализа

В целом, различается два класса нелинейных регрессий. К первому классу относятся регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по неизвестным, подлежащим оценке, параметрам регрессии. Поэтому образующие этот класс нелинейные регрессии называют также квазилинейными регрессиями. Их преимущество состоит в том, что для них возможно непосредственное применение метода наименьших квадратов, а следовательно, остаются в силе все исходные предпосылки линейного регрессионного анализа и свойства МНК-оценок параметров регрессии (несмещенность, состоятельность, гомоскедастичность и т. д.). Используются те же самые критерии значимости, аналогично строятся доверитель-

22


1

2

ные интервалы и доверительные зоны. Примером данного типа регрессий является, в том числе, полином разных степеней:

Нередко зависимая переменная — переменная отклика бинарна по своей природе, т.е. может принимать только два значения.

Например, пациент может выздороветь, а может и нет, кандидат на должность может пройти, а может проВторой класс регрессий характеризуется нелиней- валить тест при приеме на работу, подписчики журностью по оцениваемым параметрам. Этот класс нала могут продлить, а могут не продлевать подписку, регрессий встречается довольно часто при исследо- купоны скидок могут быть использованы, а могут быть и вании экономических явлений. Однако он обладает не использованы и т.п. Во всех этих случаях нас может существенным недостатком —не допускает применения заинтересовать поиск зависимости между одной или обычного метода наименьших квадратов. Для решения несколькими «непрерывными» переменными и одной, получающейся при этом системы нелинейных уравне- зависящей от них бинарной переменной. В этих случаях ний привлекают итерационные методы либо прибегают используются логит- и пробит-модели. к аппроксимации параметров искомой зависимости. Широко используется также линейное преобразова- В логит-модели предсказываемые значения для завиние функции регрессии, которое позволяет применять симой переменной больше или равны 0 и меньше или к преобразованным параметрам статистические крите- равны 1 при любых значениях независимых переменных. рии линейной регрессии. Строгой теории нелинейной Это достигается применением регрессионного уравнерегрессии пока нет. Примером данного типа регрессий ния, изображенного на первом рисунке. Пробит-мобудет степенная функция экспоненты следующего вида: дель основана на нормальном распределении (в отличие от логит-регрессии, основанной на логистическом распределении). Она изображена на втором рисунке.

Основы регрессионного анализа

23


Множественный регрессионный анализ

Социологические и экономические явления чаще всего адекватно описываются многофакторными моделями. Это означает, что в модели может одновременно существовать несколько переменных, от которых зависит результат. Поэтому возникает необходимость обобщить рассмотренную выше двумерную корреляционную модель на случай нескольких переменных. Например, по мнению тренера, помимо количества лет с момента окончания школы количество его сообще-

Основы регрессионного анализа

ний с друзьями сильно зависит от интенсивности его работы (см. рисунок). В множественном регрессионном анализе задаются целью получить оптимальную оценку зависимой переменной z0, исходя из нескольких так называемых «независимых переменных» (z1…zm). Эта терминология двусмысленна и может ввести в заблуждение. Особенную путаницу вносит название «независимые» для переменных потому, что эти переменные не являются в общем случае независимыми в вероятностном смысле. Эти переменные могут быть связаны друг

24


с другом и, конечно, связаны с зависимой переменной, иначе не имело бы смысла производить оценку. Если бы переменные были действительно независимыми, а следовательно, ортогональны друг к другу и к целевой функции, они ничего бы не вносили в оценку. Их независимость надо понимать в том смысле, что они определяются раздельно и ими можно варьировать в опыте, в то время как зависимую переменную лишь измеряют. Поэтому следует отдавать предпочтение другим терминам (для z1…zm) и z0, например, регрессоры (регрессионные переменные) и зависимая переменная, или исходные величины и целевая функция. Модель множественной регрессии для стандартизованных данных имеет следующий вид:

т.е. зависимая переменная z0 рассматривается как линейная комбинация переменных z1…zm. Коэффициенты выбираются так, чтобы была как можно меньше, то есть, по сути, используется метод наименьших квадратов, характерный для обычной однофакторной линейной регрессии. Продолжая пример с друзьями тренера на Фейсбуке, можно предположить, что имеет место функциональ-

Основы регрессионного анализа

ная зависимость вида , где x1 — количество лет с момента окончания школы, а х2 — интенсивность работы тренера (как и раньше, у — это количество сообщений, а —константа, а — ошибка). Следующим шагом в этом анализе может быть попытка включения в модель нелинейных функций (например, логарифма рабочих часов) и функций, нивелирующих взаимное влияние переменных (например, произведение логарифма рабочих часов и количества лет после окончания школы). Каким образом придумывать эти переменные, исследователь должен решать, опираясь на свои знания, чутье и предыдущие эксперименты. Например, протестируем регрессию с помощью средств MS Office Excel. В этой регрессии или «ЛогГоды» — натуральный логарифм количества лет с того момента, как тренер закончил школу, или «ЛогРабота» — натуральный логарифм продолжительности рабочей недели в часах, а или «ПроизвЛог» — это произведение двух логарифмов, с помощью которого пробуется нивелировать взаимозависимость двух исследуемых переменных. Результаты регрессии показывают, что при, в целом, очень качественной модели (R2 около 1) 2 переменные из трех и константа оказались значимыми на 1%-ном уровне

25


(p < 0,01), а третья переменная — лишь на 16%. Полученные коэффициенты, в свою очередь, позволяют делать прогнозы: через 12 лет после окончания школы ( ) при рабочей неделе в 64 часа(

Основы регрессионного анализа

;

) согласно пред-

ставленной модели, тренер напишет и получит 10 сообщений в Фейсбуке от своих школьных друзей ( ).

26


Использование программных средств для решения статистических задач Использование MS Office Excel для регрессионного анализа

Для того, чтобы воспользоваться инструментом регрессионного анализа встроенного в Excel, необходимо активировать надстройку Пакет анализа. Найти ее можно, перейдя по вкладке «Файл —> Параметры», в появившемся диалоговом окне Параметры Excel нужно перейти во вкладку «Надстройки».

Основы регрессионного анализа

В поле «Управление» — выбрать «Надстройки Excel» и щелкнуть по кнопке «Перейти». В появившемся окне нужно поставить галочку напротив пункта «Пакет анализа» и нажать «ОК». Во вкладке «Данные» в группе «Анализ» появится новая кнопка «Анализ данных».

27


При выборе пункта «Регрессия» в настройках анализа данных, выделении входных данных и настройки

Основы регрессионного анализа

отображения материалов, результаты отображаются отдельным блоком.

28


Результаты регрессии довольно просто интерпретировать. В таблице «Регрессионная статистика» сгенерированы результаты по регрессионной статистике. Эти результаты соответствуют следующим статистическим показателям: • Множественный R — коэффициенту корреляции R; • R-квадрат — коэффициенту детерминации R2; • Стандартная ошибка — остаточному стандартному отклонению • Наблюдения — числу наблюдений n.

• Для строки «Регрессия» — это сумма квадратов отклонений теоретических данных от среднего. • Для строки «Остаток» — это сумма квадратов отклонений эмпирических данных от теоретических. • Для строки «Итого» — это сумма квадратов отклонений эмпирических данных от среднего.

В таблице «Дисперсионный анализ» сгенерированы результаты дисперсионного анализа, которые используются для проверки значимости коэффициента детерминации R-квадрат. Столбцы имеют следующую интерпретацию:

4. Столбец F — расчетное значение F-критерия Фишера: • Столбец «Значимость F» — значение уровня значимости соответствующее вычисленному значению Fp.

1. Столбец df — число степеней свободы. • Для строки «Регрессия» число степеней свободы определяется количеством факторных признаков m в уравнении регрессии kф=m=5. • Для строки «Остаток» число степеней свободы определяется числом наблюдений n и количеством переменных в уравнении регрессии: kо = n – (m+1)=79 – 6=73. 2. Столбец SS — сумма квадратов отклонений.

Основы регрессионного анализа

3. Столбец MS — дисперсии, рассчитываемые по формуле: • Для строки «Регрессия» — это факторная дисперсия. • Для строки «Остаток» — это остаточная дисперсия.

В следующей таблице сгенерированы значения коэффициентов регрессии и их статистические оценки. Столбцы имеют следующую интерпретацию: • Коэффициенты — значения коэффициентов аi. • Стандартная ошибка — стандартные ошибки коэффициентов ai. • t-статистика — расчетные значения t-критерия, вычисляемые по формуле. • Р-значение — значения уровней значимости, соответствующие вычисленным значениям tp. Определяются с помощью функции СТЬЮДРАСП.

29


• Нижние 95 % и Верхние 95 % — соответственно нижние и верхние границы доверительных интервалов для коэффициентов регрессии. Для нахождения границ доверительных интервалов с помощью функции =

СТЬДРАСПОБР (tp; n — т — 1) рассчитывается критическое значение t-критерия tкp, а затем по формулам вычисляются соответственно нижние и верхние границы доверительных интервалов.

мера точности модели: чем ближе к 1, тем модель лучше оценка «лишних» переменных: если показатель существенно меньше R-квадрата, т о в регрессию включены лишние переменные

коэффициент переменной; если он оценка достоверности к оэффициента: большой по модулю, переменная для принятой в статистике 90% точности оказывает значительное в лияние требуется, ч тобы р < 0,10

Основы регрессионного анализа

30


Регрессионный анализ в SPSS

SPSS также часто используется для регрессионного анализа. Чтобы вызвать регрессионный анализ в SPSS,

Основы регрессионного анализа

нужно выбрать в меню Analyze (Анализ) пункт Regression (Регрессия). Откроется соответствующее подменю.

31


При выборе наиболее частой «линейной регрессии» открывается окно

Вывод основных результатов выглядит следующим образом: Model Summary (Сводная таблица по модели) Model (Модель)

R

R Square (R-квадрат)

Adjusted R Square (Скорректир. R-квадрат)

Std. Error of the Estimate (Стандартная ошибка оценки)

1

,861а

,741

,740

25,26

а. Predictors: (Constant), Cholesterin, Ausgangswert (Влияющие переменные: (константы), холестерин, исходная величина)

Основы регрессионного анализа

32


ANOVA b Model (Модель) 1

Sum of Squares (Сумма Квадратов)

df

314337,948 109729,408 424067,356

1 172 173

Regression (Регрессия) Residual (Остатки) Total (Сумма)

Mean Square (Среднее значение квадрата)

314337,9 637,962

F

Sig. (Значимость)

492,722

,000a

a. Predictors: (Constant), Cholesterin, Ausgangswert (Влияющие переменные: (константа), холестерин, исходная величина). b. Dependent Variable: Cholesterin, nach 1 Monat (Зависимая переменная холестерин через 1 месяц) Coefficients (Коэффициенты)а Unstandardized Coefficients (Не стандартизированные коэффициенты) Model (Модель) 1

B

Std: Error (Станд. ошибка)

(Constant) (Кон34,546 станта) Cholesterin, ,863 Ausgangswert

Standardized Coefficients (Стандартизированные коэффициенты) ß (Beta)

9,416 ,039

,861

t

Sig. (Значимость)

3,669

,000

22,197

,000

a. Dependent Variable (Зависимая переменная)

Основы регрессионного анализа

33


Регрессии в пакете Stata

Он показывает качество подгонки регрессионной модели к наблюденным значениям; • скорректированный коэффициент детерминации Adj R-squared. Он позволяет устранить эффект, связанный с ростом при возрастании числа регрессоров; • корень из оценки дисперсии случайной составляющей (Root MSE); • оценки коэффициентов, полученных по методу наименьших квадратов (Coef.); • стандартные отклонения оценок (Std.Err.); Результаты регрессии в программе представляются • t-статистики (t-статистика проверяет гипотезу о том, что уже знакомым по Excel образом. Отображаются сле- соответствующий коэффициент в регрессии равен нулю); • p-уровень значимости t-критерия равен вероятности дующие параметры: ошибочно принять гипотезу о различии между средними • количество наблюдений (obs); • статистика F (позволяет проверить гипотезу о равен- выборок, когда она не верна. Во многих исследованиях p-уровень 0,05 рассматривается как «приемлемая грастве нулю коэффициентов при всех регрессорах; • коэффициент детерминации R squared — доля ница» уровня ошибки; вариации Y, объясняемая с помощью модели. • доверительные интервалы для коэффициентов регрессии. Stata 7 — универсальный статистический пакет со специализацией в областях эконометрики, биометрики, анализе стратифицированных обследований. Он предназначен для студентов, аспирантов, исследователей в прикладных областях, интенсивно пользующихся статистикой в своей работе, обладает чрезвычайно гибкой модульной структурой, легко пополняется и расширяется, в т.ч. за счет огромного архива пользовательских модулей, доступного в Интернете.

Основы регрессионного анализа

34


ЧАСТЬ 4: ПРИЛОЖЕНИЯ


Приложения Приложения оформлены двумя отдельными файлами. В каждом из них по две таблицы: среднематчевая статистика команд (активная — действия, которые совершены игроками этой команды, и пассивная — действия,

которые совершаются средним соперником этой команды) и каждого из игроков этих команд за сезон. Среди данных за первый сезон присутствует информация о месте, которое заняла команда в турнире.

Подробнее в файлах по ссылке: http://bit.do/zenit_data_sets

Приложения

36


ОГОВОРКА Команда Changellenge » подготовила данный кейс исключительно для использования в образовательных целях. Авторы не намереваются иллюстрировать как эффективное, так и неэффективное решение управленческой проблемы. Некоторые имена в данном кейсе, а также другая информация могли быть изменены с целью соблюдения конфиденциальности. Данные, представленные в кейсе, не обязательно являются верными или актуальными и также могли быть изменены с целью соблюдения коммерческой тайны. Changellenge » ограничивает любую неправомерную форму воспроизведения, хранения или передачи кейса без письменного разрешения. Для того чтобы заказать копию или получить разрешение на распространение, пожалуйста, свяжитесь с нами по адресу: info@changellenge.com


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.