Логистическая регрессия

08.09.2021

Если вы ищете, как запустить код, перейдите к следующему разделу или если вам нужна теория / освежение знаний, начните с этого раздела.

Логитическая регрессия - это модель нелинейной регрессии, используемая, когда зависимая переменная (результат) является двоичной (0 или 1). Двоичное значение 1 обычно используется, чтобы указать, что событие (или желаемый результат) произошло, тогда как 0 обычно используется, чтобы указать, что событие не произошло. Интерпретация коэффициентов не такая простая, как если бы они были получены из модели линейной регрессии - это связано с преобразованием данных, которое выполняется в алгоритме логистической регрессии. В логистической регрессии коэффициенты являются мерой логарифма шансов. Учитывая это, интерпретация категориальной независимой переменной с двумя группами будет выглядеть так: «Те, кто находится в группе-A, имеют увеличение / уменьшение ##. ## в логарифмических шансах результата по сравнению с группой-B» - это не интуитивно понятно. вообще. Обычноисследователям нравится использовать экспоненту коэффициентов, потому что это позволяет гораздо проще интерпретировать, поскольку теперь коэффициенты представляют собой отношение нечетных (OR). Это изменило бы интерпретацию на «нечетность результата для группы-A в ##. ## раз больше, чем для группы-B», где

  • ИЛИ = 1, одинаковые шансы между группами
  • ИЛИ
  • ИЛИ>1, больше шансов по сравнению с контрольной группой

Для непрерывных независимых переменных интерпретация отношений шансов немного отличается, поскольку группы сравнения не существует. В этом случае интерпретация будет такой: «шансы результата увеличиваются / уменьшаются в ##. ## на каждую единицу увеличения независимой переменной».

Если бы для прогнозирования использовалась модель логистической регрессии, прогнозируемый Y, ($ \ hat $), будет представлять вероятность наступления результата при определенных значениях независимых переменных, то есть $ \ hat = 0,56 $ будет означать, что вероятность того, что результат произойдет, составляет 56%.

Для этой демонстрации будет использоваться обычное значение p 0,05.

Допущения при тестировании логистической регрессии

  • Линейность логита для непрерывной переменной
  • Независимость от ошибок

Оценка максимального правдоподобия используется для получения коэффициентов, и модель обычно оценивается с помощью критерия согласия (GoF) - в настоящее время обычно используется тест GoF Хосмера-Лемешоу. Метод Хосмера и Лемешоу (1980) выглядит следующим образом:

  1. Упорядочивайте наблюдения на основе их предполагаемых вероятностей.
  2. Разделите упорядоченные наблюдения на 10 групп ($ g $ = 10) с помощью любой из следующих стратегий группирования:
    • размер выборки, определенный как $ n_g ^ = \ frac $ или
    • с помощью точек разделения ($ k $), определенных как $ \ frac $
    • Эти группы известны как «децили риска». Любую стратегию группирования можно использовать для расчета статистики согласия Хосмера-Лемешоу ($ \ hat $)
  3. Запустите тест хи-квадрат Пирсона (χ 2) для таблицы риска $ g $ x 2 децилей. Хосмер и Лемешоу (1980) выражают это с помощью следующей формулы:

  • $ n_k ^ $ - общее количество участников в группе $ k ^ $
  • $ c_k $ - количество ковариантных паттернов в дециле $ k ^ $
  • $ m_j \ hat _j $ - ожидаемая вероятность

Один отвергает нулевую гипотезу, $ H_o $, если вычисленный $ \ hat Статистика $ больше критической статистики $ \ chi ^ 2 $ для заданных степеней свободы.

Логистическая регрессия с Python

Не забудьте проверить предположения перед интерпретацией результатов! Сначала загрузить необходимые библиотеки и данные. Ниже будут загружены Pandas, Researchpyи набор данных. Этот набор данных размещен в Институте цифровых исследований и образования Калифорнийского университета в Лос-Анджелесе для демонстрации логистической регрессии в Stata.

Давайте посмотрим на переменные в наборе данных.

В этом примере задается гипотетический вопрос исследования: «Какие факторы влияют на шансы на поступление?» На одном из факультетов есть данные за предыдущий семестр, и он хотел бы использовать их для проверки вопросов этого исследования. Теперь давайте взглянем на описания факторов, которые будут включены в модель: gre, gpa и rank. Ранг - это факторная переменная, которая измеряет престиж вуза, из которого претендент подает заявление: от 1, указывающего на самый высокий престиж, до 4, обозначающего самый низкий престиж.

Переменная N Иметь в виду SD SE 95% конф. Интервал 0 1
gre 400,0 587.700012 115,516663 5,775827 576.345156 599,054868
GPA 400,0 3,389901 0,380567 0,019028 3,352493 3,427309
Переменная Исход Считать Процентов 0 1 2 3 4 5
признаться 0,0 273 68,25
1.0 127 31,75
классифицировать 2.0 151 37,75
3.0 121 30,25
4.0 67 16,75
1.0 61 15,25

Из описательной статистики видно, что средний балл GRE составляет 587,7, средний GPA - 3,389, наиболее распространены поступающие из учреждений с престижным рейтингом 2, и большинство кандидатов не были допущены к программе.

Логистическая регрессия с использованием StatsModels

API формул StatsModels использует Patsy для обработки передачи формул. Псевдокод выглядит следующим образом:

Чтобы сообщить модели, что переменная категориальна, она должна быть заключена в C (независимая_переменная). Псевдокод с категориальной независимой переменной выглядит так:

По умолчанию Пэтси выбирает первую категориальную переменную в качестве ссылочной категории; при желании можно изменить ссылочную категорию. Для этого необходимо указать ссылочную категорию, а переменная - это категориальная переменная. Псевдо-код выглядит следующим образом:

Где категориальная_группа- желаемая справочная группа.

Во-первых, нужно импортировать пакет; официальную документацию по этому методу пакета можно найти здесь.

Теперь, когда пакет импортирован, можно подогнать модель и просмотреть результаты.

Результаты логит-регрессии Деп. Переменная: № Наблюдения: Модель: Остатки Df: Метод: Модель Df: Дата: Псевдо R-squ .: Время: Лог-вероятность: сошлись: LL-Null: Значение p LLR:
признаться400
Logit394
MLE5
Пн, 20 янв 20200,08292
10:24:43-229,26
Истинный-249,99
7.578e-08
Coef std err z P>| z | [0,025 0,975] Перехватить C (ранг) [T.2.0] C (ранг) [T.3.0] C (ранг) [T.4.0] gre GPA
-3,9900 1.140 -3,500 0,000 -6,224 -1,756
-0,6754 0,316 -2,134 0,033 -1,296 -0,055
-1,3402 0,345 -3,881 0,000 -2,017 -0,663
-1,5515 0,418 -3,713 0,000 -2,370 -0,733
0,0023 0,001 2,070 0,038 0,000 0,004
0,8040 0,332 2,423 0,015 0,154 1,454

Интерпретация

Используя эту информацию, можно оценить регрессионную модель. Текущая общая модель важна, что указывает на то, что это лучше, чем использование среднего для прогнозирования допуска. Интерпретация коэффициентов прямо сейчас была бы преждевременной, поскольку диагностика модели не была оценена. Однако в демонстрационных целях они будут интерпретированы.

Общая модель показывает, что модель лучше, чем использование среднего значения приема для прогнозирования решения о приеме абитуриентов, F (5, 394)

Что интерпретация действительна, но логарифмические шансы не интуитивно понятны в ее интерпретации. Давайте преобразуем это в отношение шансов и снова интерпретируем модель. Чтобы преобразовать логарифмические коэффициенты шансов и доверительные интервалы, необходимо взять экспоненту значений.

ИЛИ z-значение 2,5% 97,5% Перехватить C (ранг) [T.2.0] C (ранг) [T.3.0] C (ранг) [T.4.0] gre GPA
0,018500 0,000465 0,001981 0,172783
0,508931 0,032829 0,273692 0,946358
0,261792 0,000104 0,133055 0,515089
0,211938 0,000205 0,093443 0,480692
1,002267 0,038465 1.000120 1,004418
2,234545 0,015388 1,166122 4,281877

Интерпретация

Общая модель показывает, что модель лучше, чем использование среднего значения приема для прогнозирования решения о приеме абитуриентов, F (5, 394)

Преобразование в нечетные соотношения (OR) гораздо более интуитивно понятно при интерпретации. Где,

  • ИЛИ = 1, такие же шансы
  • ИЛИ
  • ИЛИ>1, больше / больше шансов

Также обратите внимание, что операторы ИЛИ мультипликативны в своей интерпретации, поэтому фраза включает «. Раз более вероятно \ менее вероятно» или «. Фактор.».

Проверка допущения

Поскольку логистическая регрессия является непараметрической моделью, предположения отличаются от линейной регрессии, и диагностика модели также отличается. Многие методы, используемые для диагностики моделей линейной регрессии, не могут использоваться для диагностики моделей логистической регрессии; при логистической регрессии основное внимание уделяется оценке адекватности модели.

Остатки логистической регрессии

В линейной регрессии остатки оцениваются как есть; однако остатки модели логистической регрессии необходимо преобразовать, чтобы они были полезными. Это потому, что зависимая переменная является двоичной (0 или 1). Из-за бинарной природы результата остатки не будут иметь нормального распределения, и их распределение неизвестно (Nachtsheim, Neter, & Li, 2004). Остатки оценивали затем являются либо Pearson невязки, стьюдентизированной Пирсона остатков, и / или девиации остатки.

График, который полезен для диагностики модели логистической регрессии, заключается в построении стьюдентизированных остатков Пирсона или остатков отклонения в сравнении с оцененной вероятностью или значениями линейного предиктора с помощью сглаживания Лоуэса. Nachtsheim, Neter и Li (2004) показывают, что при предположении, что модель логистической регрессии верна, тогда ошибка (разница) между наблюдаемым значением ($ Y_i $) и прогнозируемым значением ($ \ hat _i $) равно 0, то есть $$ Y_i - \ pi_i = 0 $$. Они пришли к выводу, что это предполагает, что сглаживание одной из упомянутых выше графиков приблизительно будет горизонтальной линией с нулевым пересечением - к сожалению, они не предлагают предположения. как выглядит "примерно". Глядя на визуализации,Важно помнить, что размер и масштаб изображения будут влиять на внешний вид визуализации и, следовательно, на ее интерпретацию.

Теперь, чтобы продемонстрировать это. StatsModels по умолчанию вычисляет стьюдентизированные остатки Пирсона (model.resid_pearson), а также остатки отклонений (model.resid_dev) - это экономит время.

В текущем примере кажется, что графики представляют собой приблизительную горизонтальную линию с нулевой точкой пересечения. Это говорит об отсутствии существенной неадекватности модели.

Сергей Иващенко

08.09.2021

Подписывайтесь на наши социальные сети!