Категории

Блог
Биографии
Фантастика и фэнтези
- Социально-философская фантастика
- Социально-философская фантастика
- Ненаучная фантастика
- Ироническое фэнтези
- Книги магов
- Любовное фэнтези
- Разная фантастика
- Боевое фэнтези
- Иностранное фэнтези
- Городское фентези
- Сказочная фантастика
- Разное фэнтези
- Романтическое фэнтези
- Историческая фантастика
- Зарубежная фантастика
- Стимпанк
- Ироническая фантастика
- Детективная фантастика
- Киберпанк
- Попаданцы
- LitRPG
- Космоопера
- Технофэнтези
- Городская фантастика
- Русское фэнтези
- Юмористическая фантастика
- Космическая фантастика
- Романтическая фантастика
- Мистика
- Эпическая фантастика
- Историческое фэнтези
- Ужасы и Мистика
- Постапокалипсис
- Героическая фантастика
- Фэнтези
- Научная Фантастика
- Социально-психологическая
- Альтернативная история
- Боевая фантастика
Бизнес
- Личная эффективность
- Торговля
- Бизнес
- Интернет-бизнес
- Личная эффективность
- Финансы
- Менеджмент
- Личные финансы
- Продажи
- Бизнес
- Банковское дело
- Корпоративная культура, бизнес
- Краткое содержание
- Поиск работы
- Делопроизводство, офис
- Зарубежная деловая литература
- Переговоры
- Государственное и муниципальное управление
- Ораторское искусство / риторика
- Малый бизнес
- Тайм-менеджмент
- Работа с клиентами
- Бухучет и аудит
- О бизнесе популярно
- Управление, подбор персонала
- Экономика
- Кадровый менеджмент
- Менеджмент и кадры
- Ценные бумаги и инвестиции
Приключения
- Вестерн
- Приключения про индейцев
- Зарубежные приключения
- Путешествия и география
- Исторические приключения
- Прочие приключения
- Морские приключения
- Природа и животные
Старинная литература
- Зарубежная старинная литература
- Мифы. Легенды. Эпос
- Древневосточная литература
- Древнерусская литература
- Фольклор
- Античная литература
- Европейская старинная литература
- Прочая старинная литература
Религия и духовность
- Религии: разное
- Хиромантия
- Буддизм
- Религия: протестантизм
- Религия: христианство
- Православие
- Зарубежная религиозная литература и эзотерика
- Язычество, паганизм
- Индуизм
- Религия: иудаизм
- Религия: ислам
- Религия: окультизм
- Религия
- Эзотерика
- Самосовершенствование
- Прочая религиозная литература
Компьютеры и Интернет
- Интернет
- Программное обеспечение
- Компьютерное "железо"
- Программы
- Базы данных
- Прочая околокомпьтерная литература
- Программирование
Любовные романы
- Слеш
- Фемслеш
- Эротика
- Порно
- Прочие любовные романы
- Исторические любовные романы
- Зарубежные любовные романы
- love
- Роман
- Остросюжетные любовные романы
- Современные любовные романы
- Короткие любовные романы
- Любовно-фантастические романы
Поэзия, Драматургия
- Экспериментальная поэзия
- Сценарии
- Киносценарии
- в стихах
- Кино, театр
- Трагедия
- Театр
- Песенная поэзия
- Басни
- Лирика
- Палиндромы
- Эпическая поэзия
- Зарубежная поэзия
- Верлибры
- Водевиль
- Зарубежная драматургия
- Мистерия
- Драматургия
- Драма
- Поэзия
Детская литература
- Буквари
- Зарубежные детские книги
- Детские детективы
- Школьные учебники
- Книги для дошкольников
- Книги для подростков
- Детская познавательная и развивающая литература
- Внеклассное чтение
- Детский фольклор
- Детская фантастика
- Детские остросюжетные
- Детские стихи
- Детские приключения
- Учебная литература
- Прочая детская литература
- Сказка
- Детская проза
- Детская образовательная литература
Юмор
- Сатира
- Драматургия
- Комедия
- Любовные романы
- Анекдоты
- Юмористические стихи
- Юмористическое фэнтези
- Юмористическая проза
- Прочий юмор
Документальные книги
- Искусство и Дизайн
- Критика
- Публицистика
- Прочая документальная литература
- Военная документалистика
- Биографии и Мемуары
Научные и научно-популярные книги
- Рефераты
- Астрология
- Биохимия
- Литературоведение
- Математика
- Физика
- Образовательная литература
- Зарубежная публицистика
- Филология
- География
- Зоология
- Беременность, ожидание детей
- Социология
- Детская психология
- Педагогика
- Радиотехника
- Альтернативная медицина
- О животных
- Химия
- Экология
- География
- Ветеринария
- Обществознание
- Учебники
- Государство и право
- Транспорт, военная техника
- Ботаника
- Архитектура
- Зарубежная психология
- Биофизика
- История Европы
- Культурология
- Юриспруденция
- Биология
- Науки: разное
- Медицина
- Психология, личное
- Психотерапия
- Политика
- Воспитание детей, педагогика
- Деловая литература
- Науки о космосе
- Научпоп
- Языкознание
- Иностранные языки
- Религиоведение
- История
- Техническая литература
- Прочая научная литература
- Психология
Разная литература
- Пословицы, поговорки
- Шахматы
- Подростковая литература
- Военное
- Современная зарубежная литература
- Кино
- Литература 19 века
- Недвижимость
- Цитаты из афоризмов
- Великолепные истории
- Авто и ПДД
- Военная история
- Изобразительное искусство, фотография
- Музыка, танцы
- Музыка, музыканты
- Спецслужбы
- Визуальные искусства
- Начинающие авторы
- Зарубежная прикладная литература
- Готические новеллы
- Зарубежная литература о культуре и искусстве
- Боевые искусства
- Истории из жизни
- Гиды, путеводители
- Зарубежная образовательная литература
- Современная литература
- Культура и искусство
- Фанфик
- Отраслевые издания
- Прочее
- Военная техника, оружие
- Газеты и журналы
- Периодические издания
Домоводство, Дом и семья
- Фэн-шуй
- Ремонт в квартире
- Домашнее хозяйство
- Прочее домоводство
- Сад и огород
- Домашние животные
- Дом, семья
- Интерьеры
- Отдых / туризм
- Рыбалка
- Охота
- Здоровье
- Развлечения
- Кулинария
- Спорт
- Семейная психология
- Эротика, Секс
- Сделай сам
- Хобби и ремесла
Бизнес
- Маркетинг, PR, реклама
Справочная литература
- Энциклопедии
- Прочая справочная литература
- Словари
- Руководства
- Справочники
Детективы и Триллеры
- Иностранный детектив
- Маньяки
- Зарубежные боевики
- Исторический детектив
- Детектив
- Триллер
- Боевик
- Криминальный детектив
- Полицейский детектив
- Крутой детектив
- Политический детектив
- Иронический детектив
- Классический детектив
- Шпионский детектив
Проза
- Юмор
- Зарубежная современная проза
- Афоризмы
- Очерки
- Зарубежная классика
- Эссе
- Магический реализм
- Сентиментальная проза
- Эпистолярная проза
- Семейный роман/Семейная сага
- Феерия
- Новелла
- Антисоветская литература
- Проза
- Историческая проза
- Русская современная проза
- Разное
- Советская классическая проза
- Повести
- Рассказы
- Русская классическая проза
- Современная проза
- О войне
- Контркультура
- Классическая проза

Актуальное

Самые читаемые книги

Последний попаданец 7 - Константин Зубов

Динка прощается с детством - Валентина Осеева

В мире животных Олега Турковского. Осенние работы в саду и в огороде... ('Сделай сам' №3∙2020) - Панфилов

История средних веков - Валентина Казакова

Конференц-анатомия. Как найти себя в мире индустрии встреч - Александра Юркова

Такой была подводная война - Гаральд Буш

ЧитаемОнлайн » Компьютеры и Интернет » Программирование » Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман

Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман

Читать онлайн Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман

Шрифт:

Интервал:

Закладка:

Сделать

1 ... 42 43 44 45 46 47 48 49 50 ... 69

Перейти на страницу:

данных о стажерах этим классом был «Нет», так как 60 % кандидатов не получили предложения пройти стажировку (а 40 % получили).

Теперь предположим, что кто-то из вашей команды применяет XGBoost (алгоритм градиентного усиления деревьев решений) к 80 % данных (обучающий набор), и модель классификации предсказывает верные результаты в 60 % случаев на оставшихся 20 % данных (тестовый набор). Поскольку это больше, чем 50/50, такой результат может показаться вам вполне хорошим, так как в долгосрочной перспективе эта модель обещает работать лучше, чем подбрасывание монеты.

Однако на самом деле это указывает на то, что признаки в вашем наборе данных никак не связаны с выходными параметрами. Как в этом можно убедиться? Ну, если бы вы обратились к своему исходному набору данных, полностью проигнорировали входные параметры и попытались просто угадать класс большинства для каждого прогноза («Нет»), то вы оказались бы правы в 60 % случаев! Так что алгоритм XGBoost ничем вам не помог. Метрика точности 60 % в каком-то неточна, поскольку не превышает контрольный показатель.

Подумайте о событиях, которые случаются нечасто. Например, рекламное объявление в Интернете может быть показано тысячам пользователей, но лишь несколько человек кликнут по нему. Мы бы назвали эти данные несбалансированными, поскольку слишком большую долю обучающего набора составляют объекты одного класса (большинство пользователей «не щелкнули» по объявлению). Если, например, 99,5 % людей не щелкают по объявлению, то прогноз по умолчанию, говорящий о том, что никто никогда по нему не щелкнет, окажется верным в 99,5 % случаев.

По этой причине вам не следует оценивать производительность алгоритма машинного обучения исключительно по критерию точности. Гораздо более эффективный способ оценки модели классификации – использование матрицы ошибок.

Матрицы ошибок

Матрица ошибок – это способ визуализации результатов модели классификации и определенного порога принятия решений. Представьте, что модель, построенная на основе алгоритма случайного леса, была обучена на 80 % данных о стажерах (240 кандидатов) и протестирована на оставшихся 20 % данных (60 кандидатов) с целью имитации процесса ее использования в реальном мире. Матрица ошибок, приведенная в табл. 10.3, демонстрирует результаты, полученные при использовании порога отсечения по умолчанию, равного 0,5. Обратите внимание на то, что сумма всех значений составляет 60, что соответствует количеству наблюдений в тестовом наборе. В этой выборке 23 кандидата получили приглашение на стажировку, а 37 – нет. Насколько хорошо алгоритм справился с классификацией этих данных?

Матрица ошибок предоставляет несколько критериев для оценки производительности модели. Обычная точность – это всего лишь один из них.

Точность = Процент верных прогнозов = (36 + 19)/60 = 91,6%

Однако точность – это не то, на чем вам стоит сосредоточивать внимание, особенно учитывая ее уязвимость к проблеме несбалансированных данных. В большинстве случаев вас, скорее всего, будет волновать то, насколько хорошо ваш алгоритм предсказывает истинно положительные и истинно отрицательные значения. Другими словами, находит ли классификатор те случаи, которые должен находить (истинные положительные), и игнорирует ли те наблюдения, которые должен игнорировать (истинно отрицательные)?

Табл. 10.3. Матрица ошибок для прогнозов модели классификации с порогом отсечения 0,5

Доля истинно положительных результатов (она же «Чувствительность» или «Отзывчивость») = Количество соискателей, приглашенных на стажировку, деленное на количество соискателей, которые должны были получить такое приглашение = 19/(19 + 4) = 83 %. Вам нужно, чтобы это значение было максимально близко к 100 %.

Доля истинно отрицательных результатов («Специфичность») = Количество соискателей, которым было отказано в приглашении на собеседование, деленное на количество соискателей, которым должно было быть в нем отказано = 36/(36 + 1) = 97 %. Это значение также должно быть максимально близко к 100 %.

Напомним, что для создания матрицы ошибок по умолчанию, как правило, используется порог отсечения 0,5. Если бы мы увеличили это значение до 0,75, то для получения приглашения соискатель должен был бы соответствовать более строгим критериям. Новая матрица показана в табл. 10.4.

Обратите внимание, как изменились показатели.

Доля истинно положительных результатов = Количество соискателей, приглашенных на стажировку, деленное на количество соискателей, которые должны были получить такое приглашение = 12/(12 + 11) = 52 %.

Доля истинно отрицательных результатов = Количество соискателей, которым было отказано в приглашении на собеседование, деленное на количество соискателей, которым должно было быть в нем отказано = 37/37 = 100 %.

Увеличение порогового значения привело к уменьшению доли истинно положительных результатов, что, в свою очередь, увеличило долю истинно отрицательных результатов. Более высокий порог позволяет отсеять неподходящих кандидатов, но за это приходится заплатить отсевом нескольких подходящих кандидатов.

Мы хотели продемонстрировать компромисс, на который приходится идти при определении порога отсечения. В конечном счете выбор подходящего порогового значения требует экспертных знаний в предметной области. Как главный по данным вы должны потратить время на обдумывание порога отсечения, лучше всего подходящего для решения стоящей перед вами задачи.

Табл. 10.4. Матрица ошибок для прогнозов модели классификации с порогом отсечения 0,75

Путаница в терминах, связанных с матрицей ошибок

Доля истинно положительных и истинно отрицательных результатов – это далеко не все показатели, которые можно получить на основе матрицы ошибок.

Статистики и врачи называют долю истинно положительных результатов «чувствительностью», а специалисты по работе с данными и машинному обучению – «отзывчивостью». В разных областях для одних и тех же показателей используются разные термины.

Подведение итогов

В этой главе мы обсудили логистическую регрессию, деревья решений и ансамблевые методы. Кроме того, мы поговорили о множестве подводных камней, с которыми вы можете столкнуться при работе с моделями классификации. В частности, мы обсудили такие распространенные ловушки классификации, как:

– неправильное определение типа задачи;

– утечка данных;

– отсутствие разделения данных;

– выбор неправильного порогового значения для принятия решения;

– неправильное понимание точности.

Для лучшего понимания точности мы описали матрицу ошибок и то, как ее можно использовать для оценки производительности модели. В следующей главе мы поговорим о неструктурированных данных и текстовой аналитике.

Глава 11

Освойте текстовую аналитику

«Стремитесь к успеху, но готовьтесь к овощам»

– InspireBot™, бот на основе искусственного интеллекта, «предназначенный для создания неограниченного количества уникальных вдохновляющих цитат»[105]

В нескольких предыдущих главах мы говорили о данных в их традиционном понимании. Для большинства людей наборы данных представляют собой таблицы, состоящие из строк и столбцов. Это структурированные данные. Однако в реальном мире большая часть данных, с которыми вы

1 ... 42 43 44 45 46 47 48 49 50 ... 69

Перейти на страницу:

На этой странице вы можете бесплатно скачать Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман торрент бесплатно.

Пожаловаться на ошибку

Похожие книги

Энциклопедия разработчика модулей ядра Linux - Ори Померанц

18.05.2024 - 00:00

Язык программирования C++. Пятое издание - Стенли Липпман

09.08.2024 - 18:00

VBA для чайников - Стив Каммингс

22.12.2023 - 13:31

ЯЗЫК ПРОГРАММИРОВАНИЯ С# 2005 И ПЛАТФОРМА .NET 2.0. 3-е издание - Эндрю Троелсен

22.12.2023 - 14:16

iOS. Приемы программирования - Вандад Нахавандипур

19.03.2024 - 16:00