Искусственный интеллект. Этика и право - Елена Сергеевна Ларина
Шрифт:
Интервал:
Закладка:
Что такое валидность?
Узкое внимание к точности может привести к тому, что лица, принимающие решения, будут слепы к важным фактическим соображениям, связанным с использованием инструментов прогнозирования. С любой статистической моделью, и особенно той, которая используется в таком критическом контексте, как оценки рисков в области уголовного правосудия, важно установить достоверность модели или ее точность в реальном мире. То есть, если оценки риска направлены на то, чтобы измерить вероятность того, что человек может не появиться или стать объектом будущего ареста, то это должно быть в том случае, если полученные оценки фактически отражают соответствующие вероятности. В отличие от точности, валидность принимает во внимание более широкий контекст, кающийся того, как данные были собраны и какой вывод делается.
Отдельно от данных и статистических проблем инструмент также может быть недействительным, потому что инструмент на самом деле не отвечает на правильный вопрос. Поскольку валидация всегда проводится в отношении конкретного контекста использования и конкретной задачи, перед которой ставится система, валидация инструмента в одном контексте мало говорит о том, является ли этот инструмент допустимым в другом контексте. Например, оценка риска может достаточно хорошо предсказать будущие аресты применительно к отдельным лицам в досудебном контексте, но довольно плохо применительно к лицам после вынесения приговора, или она может хорошо предсказать будущий арест в одном юрисдикции, но не в другой. Точно так же разные модели, построенные на основе одних и тех же данных, созданные с использованием разных решений и допущений при моделировании, могут иметь разные уровни достоверности. Таким образом, различные виды предсказаний (например, неявка, бегство, рецидивизм, насильственный рецидивизм) в разных контекстах требуют отдельной проверки. Без такой проверки даже устоявшиеся методы могут давать ошибочные прогнозы. Другими словами, только потому, что инструмент использует данные, собранные из реального мира, не делает автоматически его выводы достоверными.
Основные проблемы с использованием данных на уровне группы для оценки отдельных лиц
Фундаментальный философско-правовой вопрос заключается в том, допустимо ли определять свободу личности на основе данных о других в их группе. В сообществах ИИ прогнозирование отдельных лиц на основе данных на уровне групп известно как этическая ошибка. Хотя инструменты оценки риска используют данные о человеке в качестве входных данных, связь между этими входными данными и прогнозируемым результатом определяется шаблонами в обучающих данных о поведении других людей.
В контексте вынесения приговора подсудимые имеют конституционное право определять приговор на основании того, что они сделали сами, а не того, что сделали другие, имеющие сходство с ними. Эта обеспокоенность возникла, например, в деле Висконсин против Лумиса, где суд запретил использование показателей риска в качестве решающего фактора при принятии решений о свободе, отметив, что «молодой преступник, безработный, имеет ранний арест на раннем возрасте и историю неудачи в надзоре. Это приведет к средней или высокой оценке по шкале риска насилия, даже если преступник никогда не совершал насильственного преступления»[7].
Этическая ошибка особенно проблематична в системе уголовного правосудия, учитывая социальные предрассудки, которые отражаются в данных уголовного правосудия. Таким образом, вполне вероятно, что решения, принимаемые инструментами оценки риска, частично принимаются в зависимости от того, к какому защищенному классу может принадлежать физическое лицо, что вызывает серьезные опасения по поводу положения о равной защите.
В то время как существует статистическая литература о том, как решать технические проблемы, возникающие из-за этической ошибки, остается фундаментальный философский вопрос о том, допустимо ли задерживать людей на основании данных о других в их группе. По мере того, как все больше судов будут сталкиваться с вопросом, использовать ли инструменты оценки риска, этот вопрос должен быть в центре внимания и обсуждаться в качестве принципа первого порядка.
Что такое «смещение»?
В настройках статистического прогнозирования «смещение» имеет несколько перекрывающихся значений. Самое простое значение состоит в том, что прогноз, сделанный модельно, ошибочен в систематическом направлении – например, он предсказывает значение, которое слишком низкое в среднем или слишком высокое в среднем для населения в целом. Однако в литературе по справедливости машинного обучения термин «смещение» используется для обозначения ситуаций, когда прогнозируемые вероятности систематически либо слишком высоки, либо слишком низки для конкретных подгрупп населения. Эти подгруппы могут быть определены переменными защищенного класса (раса, пол, возраст и т. д.). Или другими переменными, такими как социально-экономический класс. Мы будем в первую очередь использовать термин «предвзятость» в этом боле узком смысле, который соответствует повседневному использованию термина, относящегося к разным суждениям о различных группах людей.
Смещение инструментов оценки риска может происходить из многих источников. Требование 1 (ниже) обсуждает смещение данных, которое вызвано несовершенным качеством данных, отсутствующими данными и смещением выборки. Требование 2 обсуждает смещение модели, которое проистекает пропущенной переменной смещения и прокси-переменных. Требование 3 обсуждает смещение модели, которое является результатом использования составных оценок, которые объединяют несколько различных предсказаний. В сочетании с озабоченностью по поводу точности и достоверности эти проблемы представляют собой серьезную проблему для использования инструментов оценки рисков в областях уголовного правосудия.
§ 3. Требование 1. Обучающие наборы данных должны измерять предполагаемые переменные
Наборы данных создают глубокие и нерешенные проблемы для достоверности статистических оценок риска. Почти во всех случаях ошибки и ошибки в измерениях и выборках не позволяют легко доступным наборам данных уголовного правосудия отражать то, что они должны были измерить. Создание валидных инструментов оценки риска потребовало бы (а) методологии для переоценки и устранения ошибок в обучающих данных, используя вторые источники правды, и (б) способа определить, был ли этот процесс действительным и успешным. Насколько нам известно, в настоящее время с такими методами не создаются инструменты оценки риска.
Статистическая проверка предсказания рецидивизма,