Думай «почему?». Причина и следствие как ключ к мышлению - Джудиа Перл
Шрифт:
Интервал:
Закладка:
Игра 4
Эта игра представляет новый для нас тип смещения оценки — М-тип (названный так по форме данного графа). Снова у нас только один черный ход, уже заблокированный коллайдером в B. Таким образом, нам снова не нужно вводить поправки. Тем не менее все статистики до 1986 года и многие даже сегодня посчитали бы B конфаундером. B ассоциировано с X (посредством X ← A → B) и с Y через путь, который не проходит через X (B → C ← Y). Оно не лежит на каузальном пути и не является нисходящим по отношению к чему-либо на каузальном пути, потому что от X к Y каузального пути нет. Таким образом, B проходит традиционный трехступенчатый тест на конфаундеры.
M-тип смещения оценки показывает пальцем, что неверно в традиционном подходе. Неверно называть такую переменную, как B, конфаундером только потому, что она ассоциирована сразу и с X, и с Y. Повторяем, между X и Y нет вмешивающихся переменных, если мы не вводим поправки по B. B становится осложнителем только тогда, когда мы корректируем данные по нему!
Когда в 90-х годах ХХ века я начал показывать эту диаграмму статистикам, некоторые из них смеялись и говорили, что на практике вероятность столкнуться с такой схемой ничтожно мала. Я не согласен! Так, использование ремней безопасности в автомобиле (B) не влияет каузально ни на курение (X), ни на рак легких (Y), это просто показатель отношения индивида к соблюдению общественных норм (A) и мер безопасности и охраны здоровья (C). Образ жизни, вытекающий из этого отношения, может влиять на подверженность заболеваниям легких (Y). На практике соблюдение использования ремней безопасности оказалось скоррелировано и с X, и с Y. В исследовании 2006 года этот фактор значился одним из первых в списке переменных, по которым предполагалось вводить поправки. Если принять приведенную выше модель, то введение поправок только по B будет ошибочно.
Обратите внимание, что вводить поправки по B совершенно нормально, если при этом корректировать результаты также по A или C. Корректировка открывает трубу коллайдеру B, точке схождения, но дополнительная корректировка по A или C закрывает ее снова. К сожалению, в примере с ремнями безопасности и курением A и C — переменные, связанные с отношением людей к определенным вопросам, и получить данные по ним крайне сложно. А если переменная ненаблюдаема, по ней невозможно внести поправку.
Игра 5
Игра 5 — почти то же самое, что и игра 4, но с небольшим дополнительным вывертом. Теперь требуется закрыть второй черный ход X → B → C ← Y. Если мы блокируем этот путь, вводя поправки по B, у нас открывается M-образный путь X → A ← B → C ← Y. Чтобы закрыть этот путь, нам придется вводить поправки также по A или C. Однако обратите внимание, что мы не сможем обойтись поправками только по C, это закроет путь X → B → C ← Y, но не затронет второй.
Игры 1–3 взяты из статьи 1993 года под названием «В поисках более ясного определения конфаундеров», написанной Кларис Вайнберг, заместителем начальника Национальных институтов здравоохранения. Она вышла в переходный период между 1986 и 1995 годами, когда статья Гренланда и Робинса уже была доступна, но о каузальных диаграммах еще не было широко известно. Поэтому Вайнберг была вынуждена немало потрудиться, арифметически доказывая взаимозаменяемость в каждом из приведенных примеров. Хотя для передачи обсуждаемых сценариев она и использовала графику, логика диаграмм для различения конфаундеров и переменных, устраняющих осложнения, не применялась. Кроме нее я не знаю никого, кому бы это удалось. Позже, в 2012 году, она стала соавтором дополненной версии статьи, где те же примеры проанализированы с помощью каузальных диаграмм и подтверждено, что все ее выводы 1993 года верны.
В обеих статьях Вайнберг медицинское применение приведенных схем было в выяснении влияния курения (X) на выкидыши, или «спонтанное прерывание беременности» (Y). В игре 1 фактор A — это нарушения, вызываемые курением; это ненаблюдаемая переменная, потому что мы не знаем, в чем эти нарушения состоят. Фактор B представляет собой историю предыдущих выкидышей. Для эпидемиолога будет большим искушением обратить внимание на число предшествовавших выкидышей и ввести поправку по этой переменной, оценивая вероятность будущих выкидышей. Но в данном случае это как раз неправильно! Поступив так, мы частично деактивируем механизм, по которому действует курение, и, таким образом, истинное влияние курения окажется недооцененным.
Игра 2 — более сложная версия, в которой курение разделено между двумя разными переменными: X показывает, курит ли беременная сейчас (в начале второй беременности), а A — курила ли она во время первой беременности. B и E — скрытые (ненаблюдаемые) нарушения развития, вызываемые курением, D — физиологические причины этих нарушений. Обратите внимание, что эта диаграмма допускает вариант, при котором женщина изменила свое поведение между беременностями, начав или бросив курить, но другие физиологические причины нарушений остаются прежними. Многие эпидемиологи захотят ввести поправки по предшествовавшим случаям выкидышей, но это плохая идея, если одновременно не ввести поправки по курению в предыдущей беременности (A).
Игры 4 и 5 взяты из статьи, опубликованной в 2014 году Эндрю Форбсом, биостатистиком из Университета Монаша в Австралии, вместе с несколькими соавторами. Он интересовался влиянием курения на развитие астмы у взрослых. В игре 4 переменная X — это отношение индивида к курению, Y — болел ли он астмой во взрослом возрасте. Фактор B обозначает заболевание астмой в детском возрасте, и это фактор-коллайдер, потому что на него влияют одновременно A, курение родителей и C — скрытая (и ненаблюдаемая) предрасположенность к астме. В игре 5 у переменных те же значения, но Форбс добавил две стрелки для пущего реализма (смысл игры 4 был только в том, чтобы представить читателям М-образный граф).
На самом деле в полной модели Форбса было еще несколько переменных и она выглядела так, как на рис. 27. Обратите внимание, что