Думай «почему?». Причина и следствие как ключ к мышлению - Джудиа Перл
Шрифт:
Интервал:
Закладка:
Y = fY (X, A, B, C, …, UY) (8.4)
Таким образом, инстинкт Авраама был здравым. Чтобы превратить некаузальную байесовскую сеть в причинную модель, или, точнее, сделать ее способной отвечать на контрфактивные запросы, нам нужна взаимосвязь «доза — реакция» в каждом узле.
Я осознал это далеко не сразу. Еще не обратившись к контрфактивам, я очень долго пытался сформулировать модели причинности, используя таблицы условной вероятности. Одним из препятствий, с которым я столкнулся, были циклические модели, полностью устойчивые к формулировкам условной вероятности. Еще одним препятствием была необходимость придумать запись, позволяющую отличать вероятностные байесовские сети от причинных. В 1991 году меня внезапно осенило, что все трудности исчезнут, если сделать Y функцией от его родительских переменных и обозначить с помощью UY все неопределенности, касающиеся Y. В то время это казалось ересью по отношению к моему же учению. Посвятив несколько лет изучению причин вероятностей в искусственном интеллекте, я предлагал теперь сделать шаг назад и использовать невероятностную квазидетерминированную модель. Я до сих пор помню, как мой тогдашний студент Дэнни Гейгер недоверчиво спрашивал: «Детерминированные уравнения? Действительно детерминированные?» Как будто Стив Джобс только что велел ему купить PC вместо Mac. (Это был 1990 год!)
На первый взгляд, в этих уравнениях не было ничего революционного. Экономисты и социологи использовали такие модели с 1950–60-х годов и называли это моделированием структурных уравнений. Но это название сигнализирует о противоречиях и путанице, связанной с каузальной интерпретацией уравнений. Со временем экономисты упустили из виду тот факт, что первые разработчики этих моделей, Трюгве Ховельмо в экономике и Отис Дадли Дункан в социологии, хотели, чтобы они отображали причинно-следственные связи. Они начали путать структурные уравнения с линиями регрессии, тем самым отрывая суть от формы. Например, в 1988 году, когда Дэвид Фридман попросил 11 исследователей SEM объяснить, как применять интервенцию к модели структурного уравнения, ни один из них не смог этого сделать. Они рассказали, как оценить коэффициенты на основе данных, но не сумели растолковать, зачем это делать. Если интерпретация функции-ответа, которую я представил в период с 1990 по 1994 год, и внесла нечто новое, то это было всего лишь возвращением и оформлением изначальных намерений Ховельмо и Дункана. Я хотел представить их ученикам смелые выводы, которые вытекают из этих намерений, если относиться к ним серьезно.
Некоторые из этих выводов поразили бы даже Ховельмо и Дункана. Возьмем, к примеру, идею о том, что из каждого SEM, сколько угодно простого, можно вывести все контрфактивы, какие только получается вообразить среди переменных в модели. Наша способность вычислить потенциальную зарплату Элис, если бы она имела высшее образование, вытекала из этой идеи. Но даже сегодня современные экономисты все еще не усвоили эту идею.
Еще одно важное различие между SEM и SCM, помимо средней буквы, заключается в том, что взаимосвязь между причинами и следствиями в SCM не обязательно линейна. Методы, вытекающие из анализа SCM, действительны как для нелинейных, так и для линейных функций и как для дискретных, так и для непрерывных переменных.
У линейных SEM есть много преимуществ и много недостатков. С точки зрения методологии, они соблазнительно просты. Их легко оценить на основе наблюдений с помощью линейной регрессии, на что способны десятки статистических программ, которые сделают это за вас.
Однако линейные модели не способны представлять кривые «доза — эффект», которые не являются прямыми линиями. Они не в состоянии отражать пороговые эффекты, например, для лекарства, действие которого усиливается до определенной дозы, а потом прекращается. Они также не представляют взаимодействия между переменными. Так, линейная модель не опишет ситуацию, в которой одна переменная усиливает или подавляет эффект другой (предположим, образование может усилить эффект стажа, поскольку позволит получить работу с более быстрым карьерным продвижением и более высокими ежегодными прибавками).
Несмотря на то что споры о верных допущениях неизбежны, наша основная идея довольно проста: радуйтесь! Благодаря полностью определенной SCM, включающей диаграмму причинности и все стоящие за ней функции, мы способны ответить на любой контрфактивный вопрос. Даже с частичной SCM, где некоторые переменные скрыты или отношения «доза — эффект» неизвестны, мы все же можем во многих случаях ответить на поставленный вопрос. В следующих двух разделах приведены некоторые примеры.
Контрфактивные суждения и закон
Теоретически, контрфактивы должны с легкостью использоваться в зале суда. Я говорю «теоретически», потому что юристы очень консервативны. Им требуется много времени, чтобы принять новые математические методы. Но использование контрфактивных суждений фактов в качестве аргументов на самом деле известно в юридической практике очень давно как «то, без чего невозможно».
«Примерный уголовный кодекс» США формулирует это следующим образом: «Поступок является причиной результата, когда: (а) он предшествует данному результату таким образом, что без него результат не наступил бы». Если обвиняемый выстрелил из пистолета и пуля попала в жертву и убила ее, стрельба из пистолета является необходимой причиной смерти (без которой смерть не наступила бы), поскольку жертва была бы жива, если бы не стрельба. Но причины также могут быть косвенными. Если Джо завалил доступ к пожарной лестнице мебелью, а Джуди гибнет на пожаре, не сумев выбраться наружу, то Джо несет юридическую ответственность за ее смерть, даже если он не разводил огонь.
Как выразить необходимые причины в терминах потенциальных результатов? Если мы допустим, что результатом Y будет «смерть Джуди» (с Y = 0, если Джуди жива, и Y = 1, если Джуди умирает), а эффектом X будет «заблокированная Джо пожарная лестница» (с X = 0, если Джо ее не блокировал, и X = 1, если он это сделал), то предлагается задать следующий вопрос: учитывая, что пожарная лестница действительно была заблокирована (X = 1) и Джуди умерла (Y = 1), какова вероятность того, что Джуди выжила бы (Y = 0), если бы X был равен 0?
Символически вероятность, которую мы хотим оценить, выглядит как P (YX = 0 = 0 | X = 1, Y = 1). Поскольку эта формула довольно громоздкая,