Как контролировать смешивающие эффекты с помощью статистического анализа

08.09.2021

Замешивающая переменная - это переменная, присутствие которой влияет на изучаемые переменные, поэтому результаты не отражают действительную взаимосвязь. Существуют различные способы исключения или контроля мешающих переменных, включая рандомизацию, ограничение и сопоставление. Но все эти методы применимы во время дизайна исследования. Когда экспериментальные планы являются преждевременными, непрактичными или невозможными, исследователи должны полагаться на статистические методы для корректировки потенциально мешающих эффектов. Эти статистические модели (особенно регрессионные модели) гибки, чтобы исключить влияние искажающих факторов.

Вступление

Смешивающие переменные или искажающие факторы часто определяются как переменные, коррелирующие (положительно или отрицательно) как с зависимой переменной, так и с независимой переменной (1). Confounder - это посторонняя переменная, присутствие которой влияет на изучаемые переменные, поэтому результаты не отражают фактическую взаимосвязь между исследуемыми переменными.

Целью крупных эпидемиологических исследований является поиск причин заболеваний на основе ассоциаций с различными факторами риска. Могут быть также другие факторы, которые связаны с воздействием и влияют на риск развития заболевания, и они будут искажать наблюдаемую связь между заболеванием и исследуемым воздействием. Гипотетическим примером может служить исследование связи между употреблением кофе и раком легких. Если человек, который вошел в исследование как пьющий кофе, также с большей вероятностью был курильщиком сигарет, а в исследовании измерялось только потребление кофе, но не курение, результаты могут показывать, что употребление кофе увеличивает риск рака легких, что может не быть правдой. Однако, если выявлен смешивающий фактор (в данном примере курение),В план исследования или анализ данных можно внести коррективы, чтобы исключить влияние искажающего фактора из окончательных результатов. Парадокс Симпсона также является еще одним классическим примером смешения (2). Парадокс Симпсона относится к изменению направления ассоциации, когда данные из нескольких групп объединяются в единую группу.

Поэтому исследователям необходимо учитывать эти переменные - либо с помощью экспериментального плана и до сбора данных, либо с помощью статистического анализа после процесса сбора данных. В этом случае говорят, что исследователи учитывают их эффекты, чтобы избежать ложноположительной ошибки (тип I) (ложный вывод о том, что зависимые переменные находятся в случайной связи с независимой переменной). Таким образом, смешение является серьезной угрозой обоснованности выводов, сделанных о причине и следствии (внутренняя достоверность). Существуют различные способы изменить план исследования для активного исключения или контроля мешающих переменных (3), включая рандомизацию, ограничение и сопоставление.

При рандомизации случайное распределение субъектов исследования по категориям воздействия для разрыва любых связей между воздействием и искажающими факторами. Это снижает возможность смешения за счет создания групп, которые достаточно сопоставимы в отношении известных и неизвестных мешающих переменных.

Ограничение устраняет вариации в искажающем факторе (например, если исследователь выбирает только субъектов одного возраста или одного пола, тогда исследование устранит искажение по полу или возрастной группе). Сопоставление, которое включает выбор группы сравнения в отношении распределения одного или нескольких потенциальных факторов, влияющих на ситуацию.

Сопоставление обычно используется в исследованиях «случай-контроль» (например, если возраст и пол являются соответствующими переменными, тогда 45-летний случай мужского пола сопоставляется с контрольным мужчиной того же возраста).

Но все эти методы, упомянутые выше, применимы во время разработки исследования и до процесса сбора данных. Когда экспериментальные планы являются преждевременными, непрактичными или невозможными, исследователи должны полагаться на статистические методы для корректировки потенциально мешающих эффектов (4).

Статистический анализ для устранения искажающих эффектов

В отличие от смещения выборки или информации, искажение - это один из видов смещения, который можно скорректировать после сбора данных с помощью статистических моделей. Чтобы избежать искажения результатов анализа, исследователи должны измерить искажающие факторы в исследовании. Исследователи обычно делают это, собирая данные обо всех известных, ранее выявленных искажающих фактах. В основном есть два варианта работы с искажающими факторами на этапе анализа; Стратификация и многомерные методы.

1. Стратификация

Цель стратификации состоит в том, чтобы зафиксировать уровень искажающих факторов и создать группы, внутри которых вмешивающиеся факторы не меняются. Затем оцените связь "воздействие-результат" в каждом слое вмешивающегося фактора. Таким образом, внутри каждого слоя вмешивающийся фактор не может сбивать с толку, потому что он не меняется в зависимости от результата воздействия.

После стратификации можно использовать оценщик Mantel-Haenszel (MH) для получения скорректированного результата в соответствии со стратами. Если есть разница между грубым результатом и скорректированным результатом (полученным по слоям), вероятно смешение. Но в случае, если доза грубого результата не отличается от скорректированного результата, смешение маловероятно.

2. Многомерные модели

Стратифицированный анализ лучше всего работает в том случае, если страт не так много и нужно контролировать только 1 или 2 искажающих фактора. Если количество потенциальных искажающих факторов или уровень их группировки велик, многомерный анализ предлагает единственное решение.

Многомерные модели могут обрабатывать большое количество ковариат (а также искажающих факторов) одновременно. Например, в исследовании, целью которого было измерить связь между индексом массы тела и диспепсией, можно было контролировать другие ковариаты, такие как возраст, пол, курение, алкоголь, этническая принадлежность и т. Д. В той же модели.

2.1. Логистическая регрессия

Логистическая регрессия - это математический процесс, который дает результаты, которые можно интерпретировать как отношение шансов, и его легко использовать в любом статистическом пакете. Особенность логистической регрессии заключается в том, что она может учитывать множество факторов, влияющих на результат (при достаточно большом размере выборки). Таким образом, логистическая регрессия - это математическая модель, которая может дать отношение шансов, которое контролируется для нескольких факторов, влияющих на ситуацию. Это отношение шансов известно как скорректированное отношение шансов, потому что его значение было скорректировано с учетом других ковариат (включая искажающие факторы).

2.2. Линейная регрессия

Линейный регрессионный анализ - это еще одна статистическая модель, которую можно использовать для изучения связи между несколькими ковариатами и числовым результатом. Эту модель можно использовать как множественную линейную регрессию, чтобы увидеть сквозь искажение и изолировать интересующую связь (5). Например, в исследовании, посвященном взаимосвязи между уровнем холестерина ЛПНП и возрастом, множественная линейная регрессия позволяет ответить на вопрос: как уровень ЛПНП изменяется с возрастом, после учета сахара и липидов в крови (как смешивающих факторов)? В множественной линейной регрессии (как упоминалось для логистической регрессии) исследователи могут одновременно включать несколько ковариат.Процесс учета ковариат также называется корректировкой (аналогично модели логистической регрессии), и сравнение результатов простой и множественной линейной регрессии может прояснить, насколько искажающие факторы в модели искажают взаимосвязь между воздействием и результатом.

2.3. Анализ ковариации

Анализ ковариации (ANCOVA) - это тип дисперсионного анализа (ANOVA), который используется для контроля возможных мешающих переменных. ANCOVA - это статистическая линейная модель с непрерывной переменной результата (количественная, масштабируемая) и двумя или более переменными-предикторами, где по крайней мере одна из них является непрерывной (количественная, масштабированная) и по крайней мере одна является категориальной (номинальной, немасштабируемой). ANCOVA - это комбинация ANOVA и линейной регрессии. ANCOVA проверяет, влияют ли определенные факторы на переменную результата после удаления дисперсии, которую учитывают количественные ковариаты (искажающие факторы). Включение этого анализа может увеличить статистическую мощность.

Анализ ковариации (ANCOVA) - это тип дисперсионного анализа (ANOVA), который используется для контроля возможных мешающих переменных. ANCOVA - это статистическая линейная модель с непрерывной переменной результата (количественная, масштабируемая) и двумя или более переменными-предикторами, где по крайней мере одна из них является непрерывной (количественная, масштабированная) и по крайней мере одна является категориальной (номинальной, немасштабируемой). ANCOVA - это комбинация ANOVA и линейной регрессии. ANCOVA проверяет, влияют ли определенные факторы на переменную результата после удаления дисперсии, которую учитывают количественные ковариаты (искажающие факторы). Включение этого анализа может увеличить статистическую мощность.

Анализ ковариации (ANCOVA) - это тип дисперсионного анализа (ANOVA), который используется для контроля возможных мешающих переменных. ANCOVA - это статистическая линейная модель с непрерывной переменной результата (количественная, масштабируемая) и двумя или более переменными-предикторами, где по крайней мере одна из них является непрерывной (количественная, масштабированная) и по крайней мере одна является категориальной (номинальной, немасштабируемой). ANCOVA - это комбинация ANOVA и линейной регрессии. ANCOVA проверяет, влияют ли определенные факторы на переменную результата после удаления дисперсии, которую учитывают количественные ковариаты (искажающие факторы). Включение этого анализа может увеличить статистическую мощность.

Практический пример

Предположим, что в поперечном исследовании мы ищем связь между заражением Helicobacter. Пилори(HP) и симптомы диспепсии. Исследование проведено с участием 550 человек с положительным HP и 440 человек без HP. Результаты представлены в грубой таблице 2 * 2 (Таблица 1), которая показывает, что связь между инфекцией HP и диспепсией является достоверной ассоциацией (OR = 0,60, 95% CI: 0,42-0,94). Теперь предположим, что вес может быть потенциальным препятствием в этом исследовании. Таким образом, мы разбиваем приблизительную таблицу на две группы в зависимости от веса испытуемых (нормальный вес или избыточный вес), а затем снова вычисляем OR для каждой группы. Если OR для конкретного слоя аналогичен исходному OR, нет никакого потенциального воздействия от смешивающих факторов. В этом примере для каждой страты существуют разные OR (для группы с нормальным весом OR = 0,80, 95% ДИ: 0,38–1,69 и для группы с избыточным весом OR = 1,60, 95% ДИ: 0,79–3,27).

Сергей Иващенко

08.09.2021

Подписывайтесь на наши социальные сети!