Думай «почему?». Причина и следствие как ключ к мышлению - Джудиа Перл
Шрифт:
Интервал:
Закладка:
Каково было определение конфаундеров тогда и каким оно должно быть теперь? Благодаря современным знаниям о логике причинности, на второй вопрос ответить проще. То, что мы наблюдаем и способны измерить, — это вероятность данного исхода при данном воздействии, P (Y | X). Вопрос, который мы задаем природе, имеет отношение к причинно-следственной связи между X и Y, которая выражается в интервенционной вероятности P (Y | do (X)). Конфаундеры, таким образом, должны быть определены просто как все, что приводит к несовпадению этих вероятностей: P (Y | X) ≠ P (Y | do (X)). Что тут сложного?
К сожалению, до 90-х годов XX века все было непросто, потому что оператор do еще не был формализован. Даже сегодня, если вы поймаете на улице статистика и спросите, что такое конфаундеры, вы, скорее всего, услышите самое запутанное и переусложненное объяснение, какое вам только доводилось слышать от ученого. Одна недавно вышедшая книга, написанная сразу двумя светилами статистики, объясняет, что это такое, на протяжении целых двух страниц, и мне еще, надеюсь, предстоит встретить ее читателя, который понял это объяснение.
Причина этих трудностей в том, что конфаундеры — понятие за рамками статистики. Это несоответствие того, что мы хотели бы получить (причинно-следственная связь), и того, что мы реально получаем статистическими методами. Если мы не в состоянии математически выразить то, что собираемся найти, то как мы определим несоответствие ему? Исторически концепция конфаундеров возникла вокруг двух связанных между собой концепций: несопоставимости и скрытой (вмешивающейся) третьей переменной. Обе эти концепции упорно не поддавались формализации. Когда мы говорили о сопоставимости в контексте эксперимента Даниила, мы утверждали, что подопытная и контрольная группы должны быть идентичны по всем важным параметрам. Но из этого неизбежно следует, что нам придется отличать важное от неважного. Откуда мы знаем, что в исследовании про ходьбу пожилых мужчин в Гонолулу возраст — это важный параметр? Почему мы знаем, что расположение фамилий участников этого исследования по алфавиту — параметр неважный? Можно сказать, что это очевидно или что это следует из здравого смысла, однако бесчисленные поколения ученых бьются над тем, чтобы как-то формализовать этот здравый смысл, поскольку робота поступать согласно человеческому здравому смыслу научить нельзя.
От такой же двусмысленности страдает и определение третьей переменной. Считать ли таковой только общую причину X и Y, или достаточно, чтобы эта переменная была скоррелирована с ними обеими? Сегодня мы отвечаем на такие вопросы, обращаясь к каузальной диаграмме и выясняя, какие переменные отвечают за несоответствие между P (X | Y) и P (X | do (Y)). Без диаграмм и оператора do пять поколений статистиков и медиков мучились с их суррогатами, ни один из которых не был полностью удовлетворяющим. То, что лекарства в вашей аптечке разработаны и испытаны на основе сомнительного определения конфаундеров, должно вызывать беспокойство.
Давайте взглянем на некоторые суррогатные дефиниции конфаундеров. Большинство их подпадает под одну из двух категорий — декларативную или процедурную. Типичное (и неверное) декларативное определение звучит так: «Конфаундер — это любая переменная, коррелирующая сразу и с X, и с Y». Процедурное определение, в свою очередь, будет пытаться определить конфаундер в терминах статистического анализа. Это нравится статистикам, которые обожают методы, применимые на имеющихся данных напрямую, без обращения к модели.
Вот процедурное определение, известное под пугающим названием «несхлопываемость». Оно появилось в статье 1996 года норвежского эпидемиолога Свена Хернберга: «Формально можно сравнить грубый относительный риск и относительный риск после поправок на потенциальные конфаундеры. Наличие разницы означает, что конфаундеры реально присутствуют, и в этом случае следует использовать скорректированную оценку риска. Если разницы нет или она пренебрежимо мала, конфаундеров нет и предпочтительнее использовать грубую оценку». Другими словами, чтобы узнать, есть ли влияние конфаундеров, попробуйте вводить по ним поправки или не вводить; если есть разница, есть и конфаундер. Конечно, Хернберг был далеко не первым, кто предложил такой подход; почти столетие он путал эпидемиологов, экономистов, социологов и до сих царит в некоторых областях практической статистики. Я выбрал определение Хернберга только потому, что он написал об этом неожиданно подробно и в 1996 году, когда Революция Причинности уже шла полным ходом.
Самое популярное из декларативных определений образовалось за некоторый промежуток времени. Альфредо Морабиа, автор книги «История методов и концепций в эпидемиологии», называет его «классическим эпидемиологическим определением конфаундеров» и оно состоит из трех частей. Конфаундером X (экспериментального воздействия) и Y (результата) называется переменная Z, которая: 1) ассоциирована с X в популяции в целом и 2) ассоциирована с Y среди тех, кто не получал экспериментального воздействия X. В последние годы к этому добавилось третье условие: Z не должно находиться на каузальном пути от X к Y.
Обратите внимание, что вся терминология в классической версии (1 и 2) чисто статистическая. В частности, допускается только, что Z ассоциировано с X и Y, а не является причиной их обеих. Эдвард Симпсон в 1951 году предложил довольно невразумительное условие: «Y ассоциируется с Z среди неэкспонированного». С каузальной точки зрения похоже, что идеей Симпсона было исключить ту часть корреляции Z с X, которая возникает благодаря каузальному воздействию X на Y; другими словами, он хотел сказать, что Z воздействует на Y независимо от его воздействия на X. Единственное, что ему удалось придумать для выражения этого исключения, сосредоточив внимание на контрольной группе (X = 0), было введение поправок по X. Статистический словарь, лишенный слова «воздействие», не оставлял ему возможности сказать это иначе.
Вам кажется, что это все сбивает с толку? Так оно и есть. Насколько проще было бы, если бы он мог просто нарисовать каузальную диаграмму, вроде той, что на рис. 26, и сказать «Y ассоциирована с Z через пути, не проходящие через X». Но у него не было этого инструмента, и он не мог говорить о путях, концепция которых была тогда под запретом.
У «классического эпидемиологического определения» конфаундеров есть и другие недостатки, как показывают следующие два примера:
1) X → Z → Y
и
2) X → M → Y
↓
Z
В первом примере Z удовлетворяет условиям (1) и (2), но