Категории

Блог
Биографии
Фантастика и фэнтези
- Социально-философская фантастика
- Социально-философская фантастика
- Ненаучная фантастика
- Ироническое фэнтези
- Книги магов
- Любовное фэнтези
- Разная фантастика
- Боевое фэнтези
- Иностранное фэнтези
- Городское фентези
- Сказочная фантастика
- Разное фэнтези
- Романтическое фэнтези
- Историческая фантастика
- Зарубежная фантастика
- Стимпанк
- Ироническая фантастика
- Детективная фантастика
- Киберпанк
- Попаданцы
- LitRPG
- Космоопера
- Технофэнтези
- Городская фантастика
- Русское фэнтези
- Юмористическая фантастика
- Космическая фантастика
- Романтическая фантастика
- Мистика
- Эпическая фантастика
- Историческое фэнтези
- Ужасы и Мистика
- Постапокалипсис
- Героическая фантастика
- Фэнтези
- Научная Фантастика
- Социально-психологическая
- Альтернативная история
- Боевая фантастика
Бизнес
- Личная эффективность
- Торговля
- Бизнес
- Интернет-бизнес
- Личная эффективность
- Финансы
- Менеджмент
- Личные финансы
- Продажи
- Бизнес
- Банковское дело
- Корпоративная культура, бизнес
- Краткое содержание
- Поиск работы
- Делопроизводство, офис
- Зарубежная деловая литература
- Переговоры
- Государственное и муниципальное управление
- Ораторское искусство / риторика
- Малый бизнес
- Тайм-менеджмент
- Работа с клиентами
- Бухучет и аудит
- О бизнесе популярно
- Управление, подбор персонала
- Экономика
- Кадровый менеджмент
- Менеджмент и кадры
- Ценные бумаги и инвестиции
Приключения
- Вестерн
- Приключения про индейцев
- Зарубежные приключения
- Путешествия и география
- Исторические приключения
- Прочие приключения
- Морские приключения
- Природа и животные
Старинная литература
- Зарубежная старинная литература
- Мифы. Легенды. Эпос
- Древневосточная литература
- Древнерусская литература
- Фольклор
- Античная литература
- Европейская старинная литература
- Прочая старинная литература
Религия и духовность
- Религии: разное
- Хиромантия
- Буддизм
- Религия: протестантизм
- Религия: христианство
- Православие
- Зарубежная религиозная литература и эзотерика
- Язычество, паганизм
- Индуизм
- Религия: иудаизм
- Религия: ислам
- Религия: окультизм
- Религия
- Эзотерика
- Самосовершенствование
- Прочая религиозная литература
Компьютеры и Интернет
- Интернет
- Программное обеспечение
- Компьютерное "железо"
- Программы
- Базы данных
- Прочая околокомпьтерная литература
- Программирование
Любовные романы
- Слеш
- Фемслеш
- Эротика
- Порно
- Прочие любовные романы
- Исторические любовные романы
- Зарубежные любовные романы
- love
- Роман
- Остросюжетные любовные романы
- Современные любовные романы
- Короткие любовные романы
- Любовно-фантастические романы
Поэзия, Драматургия
- Экспериментальная поэзия
- Сценарии
- Киносценарии
- в стихах
- Кино, театр
- Трагедия
- Театр
- Песенная поэзия
- Басни
- Лирика
- Палиндромы
- Эпическая поэзия
- Зарубежная поэзия
- Верлибры
- Водевиль
- Зарубежная драматургия
- Мистерия
- Драматургия
- Драма
- Поэзия
Детская литература
- Буквари
- Зарубежные детские книги
- Детские детективы
- Школьные учебники
- Книги для дошкольников
- Книги для подростков
- Детская познавательная и развивающая литература
- Внеклассное чтение
- Детский фольклор
- Детская фантастика
- Детские остросюжетные
- Детские стихи
- Детские приключения
- Учебная литература
- Прочая детская литература
- Сказка
- Детская проза
- Детская образовательная литература
Юмор
- Сатира
- Драматургия
- Комедия
- Любовные романы
- Анекдоты
- Юмористические стихи
- Юмористическое фэнтези
- Юмористическая проза
- Прочий юмор
Документальные книги
- Искусство и Дизайн
- Критика
- Публицистика
- Прочая документальная литература
- Военная документалистика
- Биографии и Мемуары
Научные и научно-популярные книги
- Рефераты
- Астрология
- Биохимия
- Литературоведение
- Математика
- Физика
- Образовательная литература
- Зарубежная публицистика
- Филология
- География
- Зоология
- Беременность, ожидание детей
- Социология
- Детская психология
- Педагогика
- Радиотехника
- Альтернативная медицина
- О животных
- Химия
- Экология
- География
- Ветеринария
- Обществознание
- Учебники
- Государство и право
- Транспорт, военная техника
- Ботаника
- Архитектура
- Зарубежная психология
- Биофизика
- История Европы
- Культурология
- Юриспруденция
- Биология
- Науки: разное
- Медицина
- Психология, личное
- Психотерапия
- Политика
- Воспитание детей, педагогика
- Деловая литература
- Науки о космосе
- Научпоп
- Языкознание
- Иностранные языки
- Религиоведение
- История
- Техническая литература
- Прочая научная литература
- Психология
Разная литература
- Пословицы, поговорки
- Шахматы
- Подростковая литература
- Военное
- Современная зарубежная литература
- Кино
- Литература 19 века
- Недвижимость
- Цитаты из афоризмов
- Великолепные истории
- Авто и ПДД
- Военная история
- Изобразительное искусство, фотография
- Музыка, танцы
- Музыка, музыканты
- Спецслужбы
- Визуальные искусства
- Начинающие авторы
- Зарубежная прикладная литература
- Готические новеллы
- Зарубежная литература о культуре и искусстве
- Боевые искусства
- Истории из жизни
- Гиды, путеводители
- Зарубежная образовательная литература
- Современная литература
- Культура и искусство
- Фанфик
- Отраслевые издания
- Прочее
- Военная техника, оружие
- Газеты и журналы
- Периодические издания
Домоводство, Дом и семья
- Фэн-шуй
- Ремонт в квартире
- Домашнее хозяйство
- Прочее домоводство
- Сад и огород
- Домашние животные
- Дом, семья
- Интерьеры
- Отдых / туризм
- Рыбалка
- Охота
- Здоровье
- Развлечения
- Кулинария
- Спорт
- Семейная психология
- Эротика, Секс
- Сделай сам
- Хобби и ремесла
Бизнес
- Маркетинг, PR, реклама
Справочная литература
- Энциклопедии
- Прочая справочная литература
- Словари
- Руководства
- Справочники
Детективы и Триллеры
- Иностранный детектив
- Маньяки
- Зарубежные боевики
- Исторический детектив
- Детектив
- Триллер
- Боевик
- Криминальный детектив
- Полицейский детектив
- Крутой детектив
- Политический детектив
- Иронический детектив
- Классический детектив
- Шпионский детектив
Проза
- Юмор
- Зарубежная современная проза
- Афоризмы
- Очерки
- Зарубежная классика
- Эссе
- Магический реализм
- Сентиментальная проза
- Эпистолярная проза
- Семейный роман/Семейная сага
- Феерия
- Новелла
- Антисоветская литература
- Проза
- Историческая проза
- Русская современная проза
- Разное
- Советская классическая проза
- Повести
- Рассказы
- Русская классическая проза
- Современная проза
- О войне
- Контркультура
- Классическая проза

Актуальное

Самые читаемые книги

Последний попаданец 7 - Константин Зубов

Динка прощается с детством - Валентина Осеева

В мире животных Олега Турковского. Осенние работы в саду и в огороде... ('Сделай сам' №3∙2020) - Панфилов

История средних веков - Валентина Казакова

Конференц-анатомия. Как найти себя в мире индустрии встреч - Александра Юркова

Такой была подводная война - Гаральд Буш

ЧитаемОнлайн » Компьютеры и Интернет » Программирование » Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман

Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман

Читать онлайн Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман

Шрифт:

Интервал:

Закладка:

Сделать

1 ... 31 32 33 34 35 36 37 38 39 ... 69

Перейти на страницу:

4 – «Здоровье».

Раньше у вас было несколько коррелирующих между собой измерений. Однако четыре новых измерения представляют собой четыре составных признака, которые не коррелируют друг с другом. А отсутствие корреляции означает, что каждое новое измерение предоставляет новую, непересекающуюся информацию. По сути, мы разбиваем содержащуюся в наборе данных информацию на отдельные измерения, как указано в строке «% информации для каждой компоненты». Используя всего лишь четыре новых признака, мы можем сохранить 91 % информации, содержащейся в исходном наборе данных.

С помощью весов, указанных на рис. 8.3, 30 исходных показателей физической подготовки каждого спортсмена можно преобразовать в такие главные компоненты, как «Сила», «Скорость», «Выносливость» и «Здоровье», используя линейные комбинации. Например, сила спортсмена рассчитывается по следующей формуле:

Сила = 0,6*(количество отжиманий) + 0,5*(количество повторений становой тяги) + 0,4*(количество приседаний) + (незначительный вклад остальных признаков)

Значения (веса) 0,6, 0,5 и 0,4 – результат АГК. Мы просто решили их визуализировать.

Выполнение этой серии вычислений для всех спортсменов дает нам второй результат применения алгоритма АГК, показанный на рис. 8.4. Это новый набор данных того же размера, что и исходный, только на этот раз максимально возможное количество информации было сосредоточено в первой группе некоррелированных главных компонент (также известных как составные признаки). Обратите внимание на резкое сокращение величины вклада главных компонент, начиная с пятой.

Рис. 8.4. Алгоритм АГК создает новый набор данных того же размера, что и исходный, где столбцы представляют собой составные признаки, называемые главными компонентами

Таким образом, вместо использования 30 переменных для объяснения 100 % информации, содержащейся в исходном наборе данных, набор данных, показанный на рис. 8.4, может объяснить 91 % этой информации с помощью всего лишь четырех признаков. Это позволяет нам проигнорировать 26 столбцов. Вот это понижение размерности! Вооружившись этим набором данных, вы можете выяснить, кто из спортсменов самый сильный, самый быстрый или обладает любой комбинацией этих признаков. Визуализировать и интерпретировать данные стало намного проще.

Анализ главных компонент. Резюме

Давайте сделаем шаг назад, чтобы кое-что прояснить.

Во-первых, когда речь идет о столбце в наборе данных, хорошим синонимом информации является дисперсия (мера разброса). Подумайте об этом так. Предположим, что мы добавили новый столбец в набор данных о спортсменах, показанный на рис. 8.2, под названием «Любимая марка обуви», и каждый спортсмен ответил: «Nike». В таком случае в этом столбце не было бы никаких вариаций, позволяющих отличить одного спортсмена от другого. Нет вариации = нет информации.

Основополагающая идея АГК – взять всю содержащуюся в наборе данных информацию (множество столбцов) и сжать как можно больше этой информации в как можно меньшее количество отдельных измерений (меньшее количество столбцов). Для этого алгоритм определяет, как именно каждое из исходных измерений коррелирует с другими. Корреляция, существующая между многими измерениями, объясняется тем, что они измеряют одну и ту же основополагающую вещь. В этом смысле у нас есть лишь несколько истинных измерений данных, охватывающих большую часть информации, содержащейся в наборе данных. Математика, лежащая в основе АГК, по сути «вращает» измерения, сводя их к меньшему количеству главных компонент и позволяя нам рассматривать их без потери большого количества информации.

Это напоминает процесс фотографирования. Например, вы можете сфотографировать великие пирамиды Египта с бесчисленного количества ракурсов, однако некоторые ракурсы оказываются более информативными, чем другие. Если вы сделаете снимок с помощью дрона сверху, то пирамиды будут выглядеть как квадраты. Если вы сфотографируете их, стоя точно напротив одной из граней, они будут выглядеть как треугольники. На какой угол необходимо повернуть камеру, чтобы зафиксировать максимальное количество информации при сведении трехмерного мира Гизы в двухмерную фотографию, способную произвести впечатление на друзей? Оптимальный ракурс можно найти с помощью АГК.

Потенциальные ловушки

Теперь, когда вы познакомились с основами АГК, мы должны признать, что в реальном мире наборы данных никогда не удается свести к столь же четко различимым главным компонентам, как в примере со спортсменами.

Из-за неупорядоченности данных результирующие главные компоненты зачастую бывают лишены ясного значения и описательных названий. Мы по опыту знаем, что в погоне за броским названием для главной компоненты люди зачастую создают описание несуществующих данных. Как главному по данным, вам не следует принимать уже готовые определения главных компонент. Когда кто-то представляет вам уже названные компоненты, постарайтесь оспорить их определения, выяснив, какие именно уравнения лежат в основе той или иной группировки.

Более того, АГК не сводится к исключению неважных или неинтересных переменных. Мы часто видим, как люди совершают эту ошибку. Главные компоненты генерируются на основе всех исходных признаков. Для этого ничего не удаляется. В примере со спортсменами каждый исходный признак может быть сгруппирован с несколькими другими для получения четырех главных компонент: Сила, Скорость, Выносливость и Здоровье. Помните о том, что набор данных, полученный в результате применения алгоритма АГК, по размеру аналогичен исходному. Аналитик должен сам решить, когда отбрасывать неинформативные компоненты, поскольку одного правильного способа сделать это просто не существует. Это означает, что, когда вам представляют результаты АГК, вам следует выяснить, как именно те, кто его проводил, решили, сколько компонентов стоит оставить.

Наконец, АГК основывается на предположении о том, что высокая дисперсия свидетельствует о присутствии в переменных чего-то интересного или важного. В некоторых случаях это предположение оказывается оправданным – но не всегда. Например, признак может иметь высокую дисперсию и при этом не иметь особого практического значения. Представьте, что мы добавили к данным о спортсменах такой признак, как количество жителей в родном городе каждого из них. Несмотря на большие различия, этот признак никак не связан с данными об их спортивных результатах. Поскольку алгоритм АГК стремится отыскать существенные вариации, он может ошибочно принять этот признак за нечто важное, хотя на самом деле это не так.

Кластеризация

Группы признаков (столбцы) могут рассказать одну историю, как в случае с АГК, а группы наблюдений (строки) – другую. Именно здесь в игру вступает кластеризация[78].

По нашему опыту, кластеризация – самая интуитивно понятная техника работы с данными, потому что ее название точно отражает ее суть (в отличие от названия «Анализ главных компонент»). Если бы ваш начальник поручил вам разделить спортсменов на группы, вы бы поняли задачу. При анализе данных, представленных на рис. 8.5, у вас возник бы ряд вопросов – например, относительно возможного количества групп и способов их категоризации. Тем не менее у вас было бы от чего оттолкнуться. Например, вы могли бы сформировать одну группу из наиболее сильных

1 ... 31 32 33 34 35 36 37 38 39 ... 69

Перейти на страницу:

На этой странице вы можете бесплатно скачать Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман торрент бесплатно.

Пожаловаться на ошибку

Похожие книги

Энциклопедия разработчика модулей ядра Linux - Ори Померанц

18.05.2024 - 00:00

Язык программирования C++. Пятое издание - Стенли Липпман

09.08.2024 - 18:00

VBA для чайников - Стив Каммингс

22.12.2023 - 13:31

ЯЗЫК ПРОГРАММИРОВАНИЯ С# 2005 И ПЛАТФОРМА .NET 2.0. 3-е издание - Эндрю Троелсен

22.12.2023 - 14:16

iOS. Приемы программирования - Вандад Нахавандипур

19.03.2024 - 16:00