Обнаружена самая ценная статистика НБА: как прогнозировать командные победы с точностью 95%

08.09.2021

Говорят, любопытство убивает кошку, но пусть это будет предупреждением и для блоггеров. Этот проект - дань уважения моему собственному мазохистскому любопытству, как и аналитика данных NBA. Почему-то я подумал, что было бы забавно посмотреть, смогу ли я использовать свои «навыки» в области науки о данных, чтобы определить самую ценную статистику НБА .

За последние две недели карантина я тратил почти каждую свободную минуту, пытаясь разобраться в этом. Бесконечные часы возиться с электронными таблицами оставили меня мертвым внутри, а мое абсурдное потребление кофеина опустошило мой запас туалетной бумаги ... но самым сложным было уклониться от спойлеров Tiger King, таких как Бен Стиллер и Globo-Gym Purple Cobras.

Что означает «Самая ценная статистика»?

Как сказал Винс Ломбарди: «Победа - это еще не все, это единственное». Так что статистику, которая лучше всего коррелирует с выигрышем, следует считать наиболее ценной . В частности, в этом анализе рассматривается, как различные статистические данные команды связаны с% побед команды, и делается попытка определить одну статистику, которая лучше всего влияет на победу в играх.

Получение данных

Я собрал статистику каждой команды, которую смог найти за последние 20 сезонов НБА, в одну таблицу - традиционную статистику коробки, расширенную статистику, четырехфакторную статистику Дина Оливера, другую статистику, статистику подсчета очков, посев плей-офф и т. Д. Я объединил воедино сотни отдельных наборов данных. из справочника по баскетболу, Википедии и NBA.com для создания единой всеобъемлющей базы данных статистики команд.

В этой таблице содержится более 70 точек данных для каждой команды НБА, начиная с 1999 года. Все, от « количества игроков в общей защите» для команды до « процента забитых двухочковых мячей без посторонней помощи» - в этой таблице есть все.

И я подумал, что потратить пару часов на поиски в Google локаций стриптиз-клубов и продавцов чурро было непросто ...

Представьте, что вам нужно загрузить сотни таблиц данных, очистить их, а затем объединить их вместе с утомительными формулами сопоставления индексов, которые нужно проверять трижды ... и все это без простого удовольствия представить, как Джеймс Харден нервничает в Pumps накануне вечером сбросив 44 на нетс… тьфу. В любом случае, это было изнурительно .

Но как только все данные были собраны, начался настоящий кошмар.

Предварительный анализ - базовая корреляция с% выигрыша

Для каждой из более чем 70 статистических категорий я провел базовый корреляционный анализ против% выигрыша. Корреляция просто говорит нам, как две вещи связаны друг с другом.

Для этого анализа нас больше всего интересует взаимосвязь между% побед и различной статистикой команды. Мы хотим увидеть, совпадает ли увеличение статистики с увеличением Win% (и наоборот).

Нажмите на любое изображение, чтобы увеличить

Вот как выглядит этот первоначальный корреляционный анализ. Хотя мы в первую очередь смотрим на выделенный столбец слева, другие поля также могут дать представление о взаимосвязях между статистикой других команд.

Чтобы проиллюстрировать, что означает «корреляция», вот визуализация сильной, умеренной и слабой корреляции из тепловой карты выше:

Нажмите на любое изображение, чтобы увеличить

Примечание: каждая точка графика на диаграммах представляет рейтинг статистики и% побед команды за разные годы. Есть 595 точек - по одной для каждой команды НБА, для каждого из последних 20 сезонов (29 команд до 2004 года).

Диаграмма слева показывает очень сильную корреляцию - по мере увеличения рейтинга PIE команды ее Win% увеличивается. Вы также можете заметить, что все точки плотно сгруппированы вдоль красивой наклонной линии. И наоборот, точки на диаграмме Paint справа выглядят как ироническая попытка Дэрила Мори в современном искусстве.

Ключ к этому шагу проще, чем кажется: определить индивидуальную статистику с сильной корреляцией с Win%. Но, как видите, большая часть статистики сама по себеимеет слабую корреляцию!

Первоначально я определил только 20 командных статистических данных, имеющих значимую связь с% побед команды:

Однако три из этих характеристик, несмотря на их хорошую корреляцию, дают очень минимальное представление о баскетболе:

  • Плюс / Минус просто измеряет разницу в очках команды.
  • Маржа победы - это буквально просто плюс / минус с причудливым названием (MOV - от баскетбольной ссылки; +/- - с NBA.com).
  • Чистый рейтинг (рейтинг вне рейтинга - рейтинг защиты) - это просто +/- статистика команды, скорректированная на 100 владений.

Итак, что может нам сказать статистика, такая как Плюс / Минус или MOV? Они не измеряют эффективность стрельбы или результативность подбора. Они не измеряют безопасность мяча или защитную способность. Их сильная корреляция основана только на двух числах: набранных очках и очках соперника. Цель аналитики данных - это не просто обнаружение и интерпретация тенденций в данных. В конечном итоге цель состоит в том,чтобы информировать лиц, принимающих решения.

Тренеры и гроссмейстеры не могут быть проинформированы с помощью таких статистических данных, как MOV, потому что они не имеют реального отношения к тому, как ведется игра. По сравнению с расширенной статистикой, разработанной НБА, PIE, которая представляет собой шаблонную комбинацию реальных статистических данных, таких как FG, DREB, AST, TO, PF и т. Д. Поскольку базовая статистика команды колеблется, рейтинг команды PIE меняется. Эти колебания позволяют лицам, принимающим решения (тренерам / гроссмейстерам) определять, как изменения в стиле игры, производительности или персонале влияют на шансы Команды на победу.

С коэффициентом корреляции 0,948 рейтинг команды PIE NBA является эталоном, который стоит побить.

Дальнейший анализ - четыре фактора Дина Оливера

Я обнаружил четыре фактора успеха в баскетболе в ночной никотиновой дымке с кофеином, когда собирал данные из справочника по баскетболу. Я никогда раньше не слышал о четырех факторах и не знал, что они были детищем крестного отца баскетбольной аналитики - Дина Оливера, уважаемого спортивного статистика и помощника тренера Washington Wizards - в его попытке ответить на вопрос: «Каким образом? баскетбольные команды выигрывают игры? » Я не знаю Дина лично, но могу засвидетельствовать, как сильно он ненавидел себя в разгар этого открытия.

«Есть четыре фактора нападения или защиты, которые определяют его эффективность: процент бросков, скорость передачи, процент подбора в атаке и попадание на линию фола. Стремление контролировать эти факторы ведет к созданию более успешной команды ». (Дин Оливер, Баскетбол на бумаге )

Анализ Оливера выявил четыре основные области, имеющие решающее значение для победы в баскетбольных матчах: броски, передачи, подбор и штрафные броски. Он присвоил каждой из четырех областей расширенную статистику и оценил их важность для успеха.

Как вы могли заметить, название « Четыре фактора» звучит неправильно! Фактически необходимо учитывать 8 факторов: четыре для команды и четыре для соперника.

Одна вещь, которая меня озадачила: оглядываясь назад на мой первоначальный корреляционный анализ, ни один из отдельных факторов не имеет сильной связи с Win%. Это означает, что для того, чтобы получить какое-либо значимое представление о том, как они способствуют успеху команды, факторы Дина Оливера должны быть проанализированы вместе .

Хотя Оливер опубликовал свои присвоенные веса для каждого фактора в отдельности, я не смог найти ни одного случая, когда он объединял бы эти отдельные факторы в единую формулу. Так я и сделал!

Используя сложную аналитическую систему, известную как Метод проб и ошибок , я наткнулся на следующую формулу:

Четырехфакторный рейтинг командыДина Оливера = ((0,4 * eFG%) - (0,25 * TOV) + ​​(0,2 * OREB) + (0,15 * FTR)) Четырехфакторный рейтинг оппонентаДина Оливера = ((0,4 * OppeFG%) - (0,25 * OppTOV) + ​​(0,2 * OppOREB) + (0,15 * OppFTR))

Чистыйчетырехфакторный рейтинг Дина Оливера = Рейтинг FF команды DO - Рейтинг FF DO Opp

Я подключил недавно собранный четырехфакторный рейтинг Дина Оливера к корреляционному анализу и получил следующие результаты:

При совместном наблюдении четыре фактора Дина Оливера имеют гораздо более сильную корреляцию с% выигрыша, чем любой из факторов по отдельности! Я не знаю, как это возможно, чтобы 8 характеристик, так слабо связанных с победой, стали невероятной корреляцией с успехом при объединении - сначала мне это показалось волшебством.

Но магия это или нет, но рейтинг Дина все еще не превосходит рейтинг команды PIE НБА.

Дальнейший анализ - четыре фактора Салли

Мне не нравилась идея о главенстве собственной статистики НБА, поэтому я хотел посмотреть, смогу ли я сделать свою собственную расширенную статистику. Почему? Потому что я мелкий человек . Однажды я проанализировал, как Чарльз Баркли пристыдил женщин Сан-Антонио, просто чтобы доказать, что это было вызвано негодованием за его собственные опрометчивые поступки.

Я начал это не под предлогом успешного создания собственной жизнеспособной и конкурентоспособной расширенной статистики. Я просто хотел, чтобы мое число было больше, чем у них. И я это сделал .

Я использовал модель, разработанную ранее для четырехфакторного рейтинга Дина Оливера, и полагался на эту хорошую методику анализа методом проб и ошибок. После нескольких корректировок различных весов я нашел одну смесь, которая имела сильную корреляцию и имела смысл с точки зрения баскетбола.

Четырехфакторный рейтинг командыСалли = ((0,50 * eFG%) - (0,30 * TOV) + ​​(0,15 * OREB) + (0,05 * FTR)) Четырехфакторный рейтинг противникаСалли = ((0,50 * OppeFG%) - (0,30 * OppTOV) ) + (0,15 * OppOREB) + (0,05 * OppFTR))

Салли ЧистаяЧетыре фактора Рейтинг = Sully Команда FF Рейтинг - Sully Opp FF Рейтинг

То, что я первоначально думал, будет просто хорошим смехом, в конечном итоге полностью изменило правила игры. За последние 20 сезонов НБА мой «четырехфакторный рейтинг Салли» имеет более сильную корреляцию с процентным соотношением побед, чем рейтинг PIE НБА и четырехфакторный рейтинг Дина Оливера.

Сначала я не мог поверить в это. Я повторил расчеты три раза, чтобы убедиться, что они верны.

После рассмотрения различных возможностей я считаю, что мой новый четырехфакторный рейтинг более точен не потому, что я математический гений, а потому, что веса, на которые я наткнулся, идеально совпадают с эволюцией спорта.

Подумайте об этом: Дин Оливер разработал свои Четыре фактора в 2002 году . Его анализ, вероятно, использовал статистику 80-х и 90-х годов; но с тех пор игра кардинально изменилась! «Трехточечная революция» и смерть традиционного большого человека - это всего лишь пара факторов, которые могут объяснить, почему моя обновленная четырехфакторная статистика более актуальна.

И небольшое исследование подтверждает эту идею. С 1980 года по сегодняшний день количество попыток штрафных бросков в лиге за игру снизилось на 27%, а количество подборов в атаке за игру снизилось на 33%.

Кроме того, лига шириной 3-точечные попытки за игру увеличились на 120% , так как только в 2000 году. Четырехфакторный рейтинг Салли, по сути, взял модель Дина Оливера и обновил весовые коэффициенты для 21-го века - больший вес для эффективности стрельбы и меньший вес для отскока и штрафных бросков. Учитывая, как лига кардинально изменилась за эти годы, мои обновления четырех факторов почти интуитивно понятны.

Но прошлое осталось прошлым . Насколько сильна эта статистика применительно к «текущему» сезону НБА?

Тест - Прогнозирование побед в 2020 году (НБА против Дина против Салли)

При тестировании статистики за последние 20 сезонов НБА, четырехфакторный рейтинг Салли показал самую сильную корреляцию. Но давайте посмотрим, что произойдет, если мы применим эти модели к сезону НБА 2019-2020 ... какая из них наиболее точно предсказывает командные победы?

Для увеличения нажмите на картинки

Не углубляясь в статистику, я быстро расскажу, что я сделал для расчета прогнозируемых побед на 2020 год.

Сначала я провел независимый регрессионный анализ для каждой из трех расширенных статистических данных, определил коэффициент / точку пересечения, а затем вставил эти значения в уравнение регрессии (y = b 0 + x 1 * b 1 ). Честно говоря, я действительно не знаю, как эта часть работает. Но при подключении соответствующей статистики команды появляется прогнозируемый процент выигрыша!

Например, в этом году Милуоки имел четырехфакторный рейтинг Салли 3,43. Включено в уравнение:

  • Прогнозируемый% выигрыша Bucks 2020= 1183 * 3,43 + 0,5000312 = 0,840% выигрыша

Умноженное на количество сыгранных игр за сезон:

  • Прогнозируемыевыигрыши Bucks 2020= 0,840 * 65 = 55побед

По сравнению с фактическими показателями Bucks 2020 в размере 0,815%выигрышейи 53выигрышамодель выглядит неплохо!

Я просто экстраполировал это для каждой из трех статистических данных, для каждой команды 2020 года, и бум ...

Четырехфакторный рейтинг Салли позволяет прогнозировать командные победы с точностьюболее 95%. Почти на целый балл лучше, чем рейтинг PIE НБА, и на пол-балла лучше, чем четырехфакторный рейтинг Дина Оливера, я снова выигрываю !

Интересным результатом этого упражнения является то, что мои «Хьюстон Рокетс», «Мори-баллеры», как я люблю их называть, исказили модели прогнозирования больше, чем любая другая команда! Каким образом команда, личность которой на корте неотличима от таблицы, может быть наиболее искажена статистическими моделями ?!

Другие наблюдения:

  • Худшая команда лиги по каждой модели:
    • Рейтинг NBA PIE: CLE - прогнозируемые 20 побед (против 19 фактических)
    • Дин Оливер Рейтинг FF: GSW - предсказано 13 побед (против 15 фактических)
    • Четырехфакторный рейтинг Салли: GSW - прогнозируемые 14 побед (против 15 фактических)
    • Рейтинг NBA PIE: HOU -9 побед (скидка 16%)
    • Рейтинг Dean Oliver FF: OKC -8 побед (скидка 15%)
    • Четырехфакторный рейтинг Салли: DET -6 побед (скидка 11%)
    • На самом деле в этом году Wizards выиграли 24 игры; рейтинг Sully FF предсказал 23,0 победы, в то время как рейтинг FF Дина Оливера предсказал 21,6 победы.
    • Собери свое дерьмо, Дин.

    Награда «Самая ценная статистика» НБА вручается…

    Meублюдки, вы даже читали ?!

    Из всех более чем 70 проанализированных статистических данных четырехфакторный рейтинг Салли имел самую сильную корреляцию с% побед команды за последние 20 сезонов НБА, а также продемонстрировал самую высокую точность прогнозов применительно к сезону 2020 года.

Сергей Иващенко

08.09.2021

Подписывайтесь на наши социальные сети!