Думай «почему?». Причина и следствие как ключ к мышлению - Джудиа Перл
Шрифт:
Интервал:
Закладка:
Только потом я понял, что одна и та же аномалия влияет не только на сферу искусственного интеллекта. Те самые люди, которых больше всего должно интересовать «Почему?», а именно ученые, трудились в статистической культуре, которая отрицала их право задавать такие вопросы. Конечно, исследователи все равно делали это неформально, но если им хотелось прибегнуть к математическому анализу, приходилось отбрасывать их как ассоциативные.
Изучая эту аномалию, я познакомился с профессионалами из самых разных областей: с философом Кларком Глимором и его коллегами Ричардом Шайнсом и Питером Спиртесом, специалистом по компьютерным наукам Джозефом Халперном, эпидемиологами Джейми Робинсом и Сандером Гренландом, социологом Крисом Уиншипом, статистиками Доном Рубином и Филипом Давидом. Все мы размышляли об одной и той же проблеме и зажгли искру Революции Причинности, которая распространилась, как по цепочке петард, от одной дисциплины к другой и затронула эпидемиологию, психологию, генетику, экологию, геологию, климатологию и т. д. С каждым годом я вижу, что ученые все больше и больше готовы говорить и писать о причинах и следствиях не с извинениями и опущенными глазами, а уверенно и активно. Появилась новая парадигма, в рамках которой основываются утверждения на предположениях, если эти предположения достаточно прозрачны, чтобы вы и другие люди могли судить, насколько они правдоподобны и насколько ваши утверждения чувствительны к их опровержению. Революция Причинности, возможно, не привела к созданию устройства, которое изменило бы нашу жизнь, однако она вызвала трансформацию взглядов, которая неизбежно оздоровит науку.
Я часто думаю, что упомянутая трансформация — второй дар искусственного интеллекта человечеству, и в этой книге в основном рассуждаю об этом. Но сейчас, когда наша история подходит к завершению, пришло время вернуться назад и спросить: в чем же состоит первый дар, для материализации которого потребовалось неожиданно много времени? Приближаемся ли мы к моменту, когда компьютеры или роботы начнут понимать рассуждения о причинно-следственных связах? Способны ли мы создать искусственные интеллекты, не уступающие трехлетним детям в способности воображать? В этой завершающей главе я не предложу однозначных выводов, но поделюсь соображениями на эту тему.
Каузальные модели и большие данные
За последние годы объемы необработанных данных, которые мы собрали, занимаясь наукой, бизнесом, государственным управлением и даже спортом, вырос в невероятных масштабах. Возможно, эти перемены очевиднее всего тем, кто использует Интернет и социальные сети. Сообщалось, что в 2014 году «Фейсбук» хранил 300 петабайт данных о 2 миллиардах пользователей, или 150 мегабайт данных на каждого пользователя. Игры, в которые играют люди, товары, которые они, вероятно, купят, имена всех их друзей в «Фейсбуке» и, конечно, видео с котиками — все это остается в благословенном океане нулей и единиц.
Распространение огромных баз данных в науке не так очевидно для широкой публики, но не менее важно. Например, для проекта «1 000 геномов» было собрано двести терабайт информации и размещено в так называемом крупнейшем публичном каталоге генетических вариаций. В Архиве космических телескопов имени Барбары Микульски, созданном НАСА, накоплено 2,5 петабайта данных, относящихся к нескольким исследованиям глубокого космоса. Но большие данные повлияли не только на передовую науку, они проникли во все сферы научного знания. Всего одно поколение назад морской биолог мог потратить месяцы, чтобы определить численность любимого вида. Теперь у того же биолога есть моментальный доступ к миллионам единиц информации о рыбе, ее икре, содержимом ее желудка и о чем угодно еще. Вместо того чтобы вести учет, биолог расскажет историю.
Для нас важнее вопрос, что идет дальше. Как извлечь смысл из всех этих чисел, битов и пикселей? Объемы данных могут быть гигантскими, но вопросы мы задаем простые. Этот ли ген вызывает рак легких? В каких солнечных системах вероятнее встретить планеты, похожие на Землю? Какие факторы сокращают популяцию нашей любимой рыбы и что с этим делать?
В определенных кругах существует почти религиозная вера в то, что ответы на все эти вопросы можно найти в самих данных, если достаточно хорошо провести их интеллектуальный анализ. Однако читатели этой книги обнаружат, что такая страстная убежденность не всегда имеет под собой основания. Вопросы, которые я только что задал, носят каузальный характер, и на них никогда нельзя ответить, ориентируясь только на информацию. От нас требуется подготовить модель процесса, генерирующего данные или, по крайней мере, каких-то ее аспектов. Всякий раз, когда вы видите статью или исследование, где данные анализируют без модели, вы можете быть уверены, что в итоге они будут просто обобщены и, возможно, трансформированы, но не интерпретированы.
Я не хочу сказать, что интеллектуальный анализ данных бесполезен. Он способен стать важнейшим первым шагом, который позволит найти интересные ассоциативные паттерны и точнее поставить вопросы для трактовки. Теперь можно не спрашивать, существуют ли гены, вызывающие рак легких. Вместо этого достаточно просканировать геном и найти гены, у которых высокая корреляция с раком легких (как в примере с Большим, описанном в главе 9). Потом ставится вопрос, вызывает ли этот ген рак легких (и каким образом). Мы никогда бы не задали вопрос об этом гене, если бы у нас не было интеллектуального анализа данных. Однако, чтобы пойти дальше, необходимо разработать причинную модель, уточняющую, например, на какие переменные воздействует ген, какие здесь возможны осложнители и какие иные причинные пути способны достичь этого результата. Интерпретация данных подразумевает выдвижение гипотез о том, как все происходит в реальном мире.
Еще одна роль больших данных в задачах для причинного вывода открывается в механизме причинного анализа, описанном во вступлении, на последнем этапе его работы (шаг 8), где мы переходим от оцениваемой величины к оценке. Эта стадия статистической оценки принимает нетривиальный оборот, когда число переменных велико, и только современные технологии интеллектуального анализа данных и машинного обучения помогут справиться с проклятием многомерности. Это объясняет, почему большие данные и причинный вывод сегодня играют важнейшую роль в развивающейся персонализованной медицине. Здесь мы пытаемся извлечь выводы из прошлого поведения группы индивидов, как