Искусство мыслить рационально. Шорткаты в математике и в жизни - Маркус дю Сотой
Шрифт:
Интервал:
Закладка:
Предположим, например, что при первой поимке были пойманы и помечены 100 барсуков, а в выборке последующего видеонаблюдения меченым был 1 барсук из каждых 10. Предполагая, что во всей популяции такая же доля меченых животных, как и в наших видеозаписях, можно оценить ее суммарную численность в 1000 особей. В случае Лапласа новорожденные (число которых известно) соответствуют меченой части полной популяции (численность которой неизвестна), а подсчет количества новорожденных в 30 приходах (оба эти числа известны) соответствует этапу повторной поимки в эксперименте с барсуками.
Этот метод использовался для оценки всего на свете – от числа людей, находящихся сейчас в рабстве на территории Великобритании, до количества танков, производившихся в Германии во время Второй мировой войны.
Проблема с шорткатами заключается в том, что они не всегда ведут к знанию. Бывает так, что они сбивают с верной дороги, лишь создают иллюзию достижения ответа, тогда как на самом деле уводят за многие мили от той цели, до которой вам нужно добраться. Опасны этим и статистические шорткаты. Иногда они бывают не настоящими шорткатами, а способами срезать углы.
Хотя 246 кошек могут дать какое-то представление о предпочтении всего 7-миллионного кошачьего населения, на выборке из 10 кошек, разумеется, нечего и надеяться что-либо понять. Тем не менее в научной литературе есть масса примеров предполагаемых открытий, основанных на таких смехотворно малых выборках. Такое часто бывает во многих исследованиях по психофизике и нейрофизиологии, опубликованных в крупных журналах, просто потому, что набрать большое количество участников для таких исследований бывает трудно. Но можно ли в самом деле делать какие бы то ни было выводы из исследований, проведенных на двух макаках-резусах или четырех крысах?
К сожалению, о сенсационных открытиях типа «8 из 10 X предпочитают Y» часто объявляют, ничего не говоря о размерах использованной выборки, что не позволяет оценить вероятность того, что это открытие соответствует действительности.
Золотой стандарт для обоснованного сообщения о значительном открытии дают те параметры, которые я установил для создания представительной выборки в опросе о кошачьем корме. Тогда я решил, что меня устроит размер выборки, при котором предпочтения кошек будут правильно представлены в 19 случаях из 20.
Когда речь идет о научных открытиях и их потенциальной значимости, например, о действенности нового лекарства при лечении некоего заболевания, результаты можно считать значимыми, если вероятность того, что пациент выздоровел бы и без приема лекарства, составляет менее 1 шанса из 20. Предположим, вы придумали заклинание, делающее так, что подброшенная монета падает орлом. Большинство людей в это не поверит; что же вам нужно сделать, чтобы убедить их? Допустим, после применения вашего заклинания орел выпадает в 15 случаях из 20. Означает ли это, что заклинание, возможно, работает? Если подсчитать вероятность того, что при случайном подбрасывании «честной» (никак не измененной) монеты без заклинания в 15 случаях из 20 выпадет орел, окажется, что она составляет менее 1 шанса из 20. Значит, тот факт, что после применения вашего заклинания орел выпал 15 раз, позволяет предположить, что заклинание действительно работает.
Начиная с 1920-х годов пороговым уровнем вероятности случайного результата, необходимым, чтобы открытие можно было признать «статистически значимым» и пригодным для публикации, считают 1/20. Когда эта вероятность ниже, говорят, что P-значение меньше 0,05. Одна двадцатая означает 5-процентную вероятность того, что рассматриваемое событие произошло случайно.
Беда в том, что, если взять всего двадцать исследовательских групп, одна из них с очень высокой вероятностью может получить такой случайный результат. Девятнадцать групп займутся другими идеями, но двадцатая придет в чрезвычайно сильное волнение, так как будет считать, что получила значимый результат, соответствующий статистическому критерию пригодности для публикации. Легко понять, почему при использовании этого порогового критерия в научной литературе появляется такое количество сумасбродных гипотез. Именно поэтому появляются призывы перепроверять многие из результатов, опубликованных благодаря тому, что они прошли эту проверку на статистическую значимость.
Напротив, если P-значение результата равно 0,06 (то есть вероятность того, что он был получен случайно, составляет 6 процентов), его считают слишком недостоверным, чтобы его можно было признать статистически значимым, и часто отбрасывают. Однако такой критерий отбраковки гипотез может быть не менее опасен. Но об отрицательных результатах неинтересно писать в новостях. Поэтому девятнадцать исследовательских групп не пишут о том, что обнаружили отсутствие связи.
С такими порогами следует обращаться чрезвычайно осторожно. Если вы хотите определить, «честную» ли монету вы подбрасываете, такой критерий может быть вполне пригодным. Но представьте себе, что вы пытаетесь понять, связано ли количество неблагоприятных исходов у пациентов некоего врача с его некомпетентностью. Не хотелось бы расследовать деятельность каждого двадцатого врача. И все же в какой момент следует начинать беспокоиться?
Например, в сентябре 1998 года доктор Гарольд Шипман, уважаемый семейный врач, был арестован за то, что вколол по меньшей мере 215 пациентам смертельные дозы опиатов. Впоследствии группа статистиков, которую возглавлял Дэвид Шпигельхальтер, заявила, что аномалии в данных Шипмана можно было обнаружить гораздо раньше при помощи теста, применявшегося во время Второй мировой войны для контроля качества военных материалов; это могло спасти 175 жизней.
С порогами значимости следует обращаться с осторожностью. В марте 2019 года 850 ученых написали в журнал Nature письмо, критикующее, как они писали, одержимость научного сообщества использованием P-значений в качестве эталона значимости научных открытий. «Мы не призываем запретить P-значения, – говорилось в этом письме, – и не утверждаем, что их нельзя использовать в качестве критерия принятия решений в некоторых специализированных приложениях (например, при определении соответствия производственного процесса каким-либо стандартам качества). Мы также не выступаем за вседозволенность, при которой недостаточно обоснованные результаты считались бы заслуживающими доверия… но призываем прекратить общепринятое дихотомическое использование P-значений для принятия решений о том, противоречит ли результат научной гипотезе или подтверждает ее».
Коллективный разум
Один из полезных шорткатов, которые изобрел статистик сэр Фрэнсис Гальтон, заключался в следующем: опросить множество простых людей, чтобы всю тяжелую работу сделали они, а потом завершить исследование при помощи некоторых хитроумных