Думай «почему?». Причина и следствие как ключ к мышлению - Джудиа Перл
Шрифт:
Интервал:
Закладка:
Фишер уже рвался в бой. Он знал, что является ведущим статистиком мира и во многом практически изобрел этот предмет, однако ему было запрещено преподавать на отделении статистики. Отношения были необычайно напряженными. «Комнату преподавателей тщательно делили, — пишет Констанс Рид в своей биографии Неймана. — Группа Пирсона пила чай в 4 часа; в 4:30, когда они благополучно удалялись, десантировалась группа Фишера».
В 1935 году Нейман прочитал в Королевском статистическом обществе лекцию под названием «Статистические проблемы сельскохозяйственных экспериментов», в которой подверг сомнению некоторые методы Фишера, а также между прочим обсудил идею потенциальных результатов. Когда Нейман закончил, Фишер встал и заявил, что «надеялся, что статья доктора Неймана будет посвящена теме, с которой автор полностью знаком».
«[Нейман] утверждал, что Фишер был неправ, — писал Оскар Кемпторн много лет спустя об этом инциденте. — Это было непростительное преступление — Фишер никогда не ошибался, и предположение о том, что это, возможно, расценивалось как вооруженное нападение. Всякий, кто не принимал писания Фишера как данную Богом истину, был в лучшем случае глупцом, а в худшем — злодеем». Несколько дней спустя Нейман и Пирсон увидели всю силу его гнева, когда вечером пришли на факультет и обнаружили разбросанные по полу деревянные модели Неймана, которыми он иллюстрировал свою лекцию. Они пришли к выводу, что только Фишер мог устроить эти разрушения.
Хотя сейчас этот приступ ярости покажется забавным, позиция Фишера имела серьезные последствия. Конечно, он не был способен обуздать свою гордость и использовать запись потенциального результата, предложенную Нейманом, хотя это помогло бы ему позже с проблемами медиации. Отсутствие языка потенциальных результатов привело его и многих других к так называемой ошибке посредничества, которую мы обсудим в главе 9.
На этом этапе некоторые читатели, вероятно, все еще считают концепцию контрфактивности несколько мистической, поэтому я хотел бы показать, как некоторые последователи Рубина делают выводы о потенциальных результатах, и противопоставить этот безмодельный подход структурной причинно-следственной модели.
Представим, что мы изучаем конкретную компанию, пытаясь понять, что сильнее влияет на зарплату сотрудника — образование или многолетний стаж. Мы собрали данные о существующих зарплатах в этой компании и записали их в табл. 12. Условимся, что EX — стаж, ED — образование, S — зарплата. Также для простоты предположим, что существуют три уровня: 0 = средняя школа, 1 = высшее образование, 2 = ученая степень. Таким образом, SЕD = 0(u) или S0(u) представляет собой зарплату человека u, если u окончил среднюю школу, но не университет, а S1(u) представляет зарплату u, если бы тот окончил университет. Типичный контрфактивный вопрос, который можно было бы задать, звучит так: какой была бы зарплата Элис, если бы у нее было высшее образование? Другими словами, чему равна S1 (Элис)?
Первое, на что следует обратить внимание в табл. 12, — это отсутствующие данные, отмеченные вопросительными знаками. Для одного и того же человека нельзя увидеть более одного потенциального результата. Несмотря на всю очевидность, это важное утверждение. Статистик Пол Холланд однажды назвал его фундаментальной проблемой причинного вывода, и название прижилось. Если бы мы могли заполнить клетки с вопросительными знаками, то ответили бы на все наши вопросы о причинности.
Я никогда не был согласен с представлением Холланда об отсутствующих данных в табл. 12 как о «фундаментальной проблеме», возможно, потому, что я редко представлял проблемы причинности в виде таблицы. Но если подойти к делу фундаментально, становится понятно, что его подход чреват огромными заблуждениями, что мы вскоре увидим. Обратите внимание, что, помимо декоративных заголовков последних трех столбцов, табл. 12 полностью лишена каузальной информации о ED, EX и S, например о том, влияет образование на заработную плату или наоборот. Хуже того, она не позволяет нам представлять такую информацию, даже когда она доступна. Но статистикам, которые видят фундаментальную проблему в отсутствии данных, такая таблица, кажется, открывает безграничные возможности. Действительно, если смотреть на S0, S1 и S2 не как на потенциальные результаты, а как на обычные переменные, у нас есть десятки методов интерполяции для заполнения пробелов или, как сказали бы статистики, условного расчета недостающих данных некоторым оптимальным образом.
Таблица 12. Вымышленные данные для примера с потенциальными результатами
Один из распространенных подходов — сопоставление. Мы ищем пары людей, которые хорошо совпадают по всем переменным, кроме интересующей нас, а затем заполняем их строки, чтобы они соответствовали друг другу. Явный пример здесь — случай Берта и Кэролайн, которые идеально совпадают по стажу. Мы предполагаем, что, если бы у Берта была магистерская степень, он получал бы столько же, сколько Кэролайн (97,0 тысяч долларов), а если бы у Кэролайн была только степень бакалавра, она получал бы, как Берт (92,5 тысяч долларов). Обратите внимание, что сопоставление подразумевает ту же идею, что и ограничение по какому-то фактору (или расслоение): мы выбираем для группы, которые разделяют наблюдаемую характеристику, и используем сравнение, чтобы сделать вывод о характеристиках, которые у них, похоже, не совпадают.
Зарплату Элис трудно оценить таким образом, потому что в данных, которые я привел, для нее нет совпадения. Тем не менее статистики разработали весьма тонкие методы, чтобы сделать условный расчет на основе приблизительных совпадений, и Рубин был одним из пионеров этого подхода. К сожалению, даже самые одаренные его представители не могут превратить данные в потенциальные результаты — даже приблизительно. Ниже я покажу, что правильный ответ принципиально зависит от того, влияет образование на опыт или наоборот, о чем в таблице нет никакой информации.
Второй возможный метод — это линейная регрессия (не путать со структурными уравнениями). В этом подходе мы делаем вид, что данные пришли из какого-то неизвестного случайного источника, и используем стандартные статистические методы, чтобы найти линию (или в данном случае плоскость), которая наилучшим образом соответствует данным. Результатом такого подхода выступает уравнение, которое выглядит следующим образом:
S = $65 000 + 2 500 ¥ EX + 5 000 ¥ ED (4)
Уравнение (4) говорит нам, что базовая зарплата сотрудника без опыта и только с аттестатом об окончании средней школы составляет (в среднем) 65,0 тысяч долларов. За каждый год опыта заработная плата увеличивается на 2,5 тысяч, а за каждую дополнительную образовательную ступень (до двух) зарплата увеличивается на 5,0