Категории

Блог
Биографии
Фантастика и фэнтези
- Социально-философская фантастика
- Социально-философская фантастика
- Ненаучная фантастика
- Ироническое фэнтези
- Книги магов
- Любовное фэнтези
- Разная фантастика
- Боевое фэнтези
- Иностранное фэнтези
- Городское фентези
- Сказочная фантастика
- Разное фэнтези
- Романтическое фэнтези
- Историческая фантастика
- Зарубежная фантастика
- Стимпанк
- Ироническая фантастика
- Детективная фантастика
- Киберпанк
- Попаданцы
- LitRPG
- Космоопера
- Технофэнтези
- Городская фантастика
- Русское фэнтези
- Юмористическая фантастика
- Космическая фантастика
- Романтическая фантастика
- Мистика
- Эпическая фантастика
- Историческое фэнтези
- Ужасы и Мистика
- Постапокалипсис
- Героическая фантастика
- Фэнтези
- Научная Фантастика
- Социально-психологическая
- Альтернативная история
- Боевая фантастика
Бизнес
- Личная эффективность
- Торговля
- Бизнес
- Интернет-бизнес
- Личная эффективность
- Финансы
- Менеджмент
- Личные финансы
- Продажи
- Бизнес
- Банковское дело
- Корпоративная культура, бизнес
- Краткое содержание
- Поиск работы
- Делопроизводство, офис
- Зарубежная деловая литература
- Переговоры
- Государственное и муниципальное управление
- Ораторское искусство / риторика
- Малый бизнес
- Тайм-менеджмент
- Работа с клиентами
- Бухучет и аудит
- О бизнесе популярно
- Управление, подбор персонала
- Экономика
- Кадровый менеджмент
- Менеджмент и кадры
- Ценные бумаги и инвестиции
Приключения
- Вестерн
- Приключения про индейцев
- Зарубежные приключения
- Путешествия и география
- Исторические приключения
- Прочие приключения
- Морские приключения
- Природа и животные
Старинная литература
- Зарубежная старинная литература
- Мифы. Легенды. Эпос
- Древневосточная литература
- Древнерусская литература
- Фольклор
- Античная литература
- Европейская старинная литература
- Прочая старинная литература
Религия и духовность
- Религии: разное
- Хиромантия
- Буддизм
- Религия: протестантизм
- Религия: христианство
- Православие
- Зарубежная религиозная литература и эзотерика
- Язычество, паганизм
- Индуизм
- Религия: иудаизм
- Религия: ислам
- Религия: окультизм
- Религия
- Эзотерика
- Самосовершенствование
- Прочая религиозная литература
Компьютеры и Интернет
- Интернет
- Программное обеспечение
- Компьютерное "железо"
- Программы
- Базы данных
- Прочая околокомпьтерная литература
- Программирование
Любовные романы
- Слеш
- Фемслеш
- Эротика
- Порно
- Прочие любовные романы
- Исторические любовные романы
- Зарубежные любовные романы
- love
- Роман
- Остросюжетные любовные романы
- Современные любовные романы
- Короткие любовные романы
- Любовно-фантастические романы
Поэзия, Драматургия
- Экспериментальная поэзия
- Сценарии
- Киносценарии
- в стихах
- Кино, театр
- Трагедия
- Театр
- Песенная поэзия
- Басни
- Лирика
- Палиндромы
- Эпическая поэзия
- Зарубежная поэзия
- Верлибры
- Водевиль
- Зарубежная драматургия
- Мистерия
- Драматургия
- Драма
- Поэзия
Детская литература
- Буквари
- Зарубежные детские книги
- Детские детективы
- Школьные учебники
- Книги для дошкольников
- Книги для подростков
- Детская познавательная и развивающая литература
- Внеклассное чтение
- Детский фольклор
- Детская фантастика
- Детские остросюжетные
- Детские стихи
- Детские приключения
- Учебная литература
- Прочая детская литература
- Сказка
- Детская проза
- Детская образовательная литература
Юмор
- Сатира
- Драматургия
- Комедия
- Любовные романы
- Анекдоты
- Юмористические стихи
- Юмористическое фэнтези
- Юмористическая проза
- Прочий юмор
Документальные книги
- Искусство и Дизайн
- Критика
- Публицистика
- Прочая документальная литература
- Военная документалистика
- Биографии и Мемуары
Научные и научно-популярные книги
- Рефераты
- Астрология
- Биохимия
- Литературоведение
- Математика
- Физика
- Образовательная литература
- Зарубежная публицистика
- Филология
- География
- Зоология
- Беременность, ожидание детей
- Социология
- Детская психология
- Педагогика
- Радиотехника
- Альтернативная медицина
- О животных
- Химия
- Экология
- География
- Ветеринария
- Обществознание
- Учебники
- Государство и право
- Транспорт, военная техника
- Ботаника
- Архитектура
- Зарубежная психология
- Биофизика
- История Европы
- Культурология
- Юриспруденция
- Биология
- Науки: разное
- Медицина
- Психология, личное
- Психотерапия
- Политика
- Воспитание детей, педагогика
- Деловая литература
- Науки о космосе
- Научпоп
- Языкознание
- Иностранные языки
- Религиоведение
- История
- Техническая литература
- Прочая научная литература
- Психология
Разная литература
- Пословицы, поговорки
- Шахматы
- Подростковая литература
- Военное
- Современная зарубежная литература
- Кино
- Литература 19 века
- Недвижимость
- Цитаты из афоризмов
- Великолепные истории
- Авто и ПДД
- Военная история
- Изобразительное искусство, фотография
- Музыка, танцы
- Музыка, музыканты
- Спецслужбы
- Визуальные искусства
- Начинающие авторы
- Зарубежная прикладная литература
- Готические новеллы
- Зарубежная литература о культуре и искусстве
- Боевые искусства
- Истории из жизни
- Гиды, путеводители
- Зарубежная образовательная литература
- Современная литература
- Культура и искусство
- Фанфик
- Отраслевые издания
- Прочее
- Военная техника, оружие
- Газеты и журналы
- Периодические издания
Домоводство, Дом и семья
- Фэн-шуй
- Ремонт в квартире
- Домашнее хозяйство
- Прочее домоводство
- Сад и огород
- Домашние животные
- Дом, семья
- Интерьеры
- Отдых / туризм
- Рыбалка
- Охота
- Здоровье
- Развлечения
- Кулинария
- Спорт
- Семейная психология
- Эротика, Секс
- Сделай сам
- Хобби и ремесла
Бизнес
- Маркетинг, PR, реклама
Справочная литература
- Энциклопедии
- Прочая справочная литература
- Словари
- Руководства
- Справочники
Детективы и Триллеры
- Иностранный детектив
- Маньяки
- Зарубежные боевики
- Исторический детектив
- Детектив
- Триллер
- Боевик
- Криминальный детектив
- Полицейский детектив
- Крутой детектив
- Политический детектив
- Иронический детектив
- Классический детектив
- Шпионский детектив
Проза
- Юмор
- Зарубежная современная проза
- Афоризмы
- Очерки
- Зарубежная классика
- Эссе
- Магический реализм
- Сентиментальная проза
- Эпистолярная проза
- Семейный роман/Семейная сага
- Феерия
- Новелла
- Антисоветская литература
- Проза
- Историческая проза
- Русская современная проза
- Разное
- Советская классическая проза
- Повести
- Рассказы
- Русская классическая проза
- Современная проза
- О войне
- Контркультура
- Классическая проза

Актуальное

Самые читаемые книги

Последний попаданец 7 - Константин Зубов

Динка прощается с детством - Валентина Осеева

В мире животных Олега Турковского. Осенние работы в саду и в огороде... ('Сделай сам' №3∙2020) - Панфилов

История средних веков - Валентина Казакова

Конференц-анатомия. Как найти себя в мире индустрии встреч - Александра Юркова

Такой была подводная война - Гаральд Буш

ЧитаемОнлайн » Компьютеры и Интернет » Программирование » Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман

Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман

Читать онлайн Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман

Шрифт:

Интервал:

Закладка:

Сделать

1 ... 47 48 49 50 51 52 53 54 55 ... 69

Перейти на страницу:

спам» окажутся равными нулю. Чтобы это исправить, давайте представим, что мы встречали каждое слово хотя бы один раз, прибавив 1 к частоте встречаемости. Кроме того, мы прибавим 2 к частоте встречаемости спама (и не спама), чтобы значения не были равны 1[120].

Теперь мы можем произвести вычисления:

Первое значение больше второго, поэтому электронное письмо с темой: «Избавьтесь от долгов с помощью наших советов по торговле акциями!» мы классифицируем как спам.

Анализ настроений

Анализ настроений – это популярный способ применения алгоритмов классификации текстов к данным социальных сетей. Если вы введете в поисковую строку Google запрос «анализ настроений по сообщениям в Twitter», то количество результатов вас наверняка удивит; складывается впечатление, что этим заняты все. Суть идеи в данном случае та же, что и в рассмотренном выше примере со спамовыми/не спамовыми письмами и сводится к ответу на вопрос о том, являются ли слова в сообщении в социальной сети (обзоре продукта или опросе) скорее «положительными» или скорее «отрицательными». То, что вы будете делать с полученной информацией, зависит от конкретного бизнес-кейса. Однако следует отметить, что при анализе настроений не стоит выполнять экстраполяцию за пределы контекста обучающих данных, рассчитывая на получение осмысленных результатов.

Что мы имеем в виду? Дело в том, что многие классификаторы для «анализа настроений» обучаются на данных, находящихся в свободном доступе в Интернете. Популярный набор данных для студентов – большая коллекция рецензий на фильмы из базы данных IMDb.com. Этот набор данных и любая модель, созданная на его основе, будут иметь отношение исключительно к обзорам фильмов. Разумеется, она будет ассоциировать такие слова, как «великолепный» и «замечательный», с положительными эмоциями, однако не стоит ожидать, что эта модель будет хорошо работать при ее применении к уникальному бизнес-кейсу, которому присуща особая терминология.

А как насчет методов работы с текстом на основе деревьев?

Методы на основе деревьев, такие как случайный лес и бустинг (усиление), могут применяться для решения задач классификации текстов и, как правило, работают лучше, чем наивный байесовский алгоритм с некоторыми наборами данных. Однако наивный байесовский алгоритм обычно становится хорошей отправной точкой и отличается прозрачной интерпретацией.

Практические соображения при работе с текстом

Теперь, когда вы познакомились с несколькими инструментами текстовой аналитики, давайте сделаем шаг назад и поговорим об анализе текста на более высоком уровне.

При работе с текстом вам доступна роскошь чтения данных. Если тематическое моделирование намекает на то, что те или иные предложения относятся к определенным темам, вы можете оценить эти результаты. Если кто-то строит модель классификации текста, попросите представить как хорошие, так и плохие результаты.

По опыту нам известно, что презентовать успешный проект текстовой аналитики заинтересованным сторонам довольно весело, поскольку в данном случае результаты представляют не ряды чисел, а то, что аудитория может прочитать, понять и обсудить. Однако докладчики склонны акцентировать внимание на захватывающих и легких победах, а не на явных промахах. При представлении результатов анализа текста главный по данным должен стремиться к максимальной прозрачности. Также при обработке результатов запросите примеры, когда алгоритмы не сработали. Поверьте, так бывает.

Это возвращает нас к замечанию, которое мы сделали в начале главы: когда компании приступают к анализу собственных текстовых данных, их часто постигает разочарование. Оно было сделано вовсе не для того, чтобы отвратить вас от текстовой аналитики. Открыто говоря о недостатках, мы надеемся предотвратить возможную негативную реакцию со стороны вас или вашей компании, которая может возникнуть, когда вы начнете анализировать текст, поймете, что это сложнее, чем вы думали, и откажетесь от этой идеи или удовлетворитесь слабой аналитикой.

К этому моменту вы уже должны были выработать достаточно скепсиса, чтобы понимать, где именно могут возникнуть проблемы. Однако некоторые крупные технологические компании, по-видимому, преодолели эти трудности и добились лидерства в области текстовой аналитики и обработки естественного языка (NLP, Natural Language Processing), которая имеет дело со всеми аспектами языка, включая звук (в отличие от просто письменного текста).

Преимущества технологических гигантов

В отличие от многих других компаний, такие технологические гиганты, как Apple, Amazon, Google и Microsoft, обладают обилием текстовых и голосовых данных (данных, снабженных метками, которые можно использовать для контролируемого обучения моделей), мощными компьютерами, группами преданных делу исследователей мирового уровня и деньгами.

Благодаря таким ресурсам они добились значительного прогресса в области анализа не только текста, но и звука. В последние годы произошли заметные улучшения в следующих сферах:

– Преобразование речи в текст. Голосовые помощники и функции преобразования голоса в текст на смартфонах стали работать более точно.

– Преобразование текста в речь. Голоса в программах для чтения с экрана компьютера теперь больше напоминают человеческие.

– Преобразование текста в текст. Перевод с одного языка на другой выполняется мгновенно и с достаточно высокой точностью.

– Чат-боты. Окна чата, которые теперь автоматически открываются на каждом веб-сайте с вопросом: «Чем я могу вам помочь?», стали (чуть) более полезными.

– Генерация понятного человеку текста. Языковая модель GPT-3[121] от компании OpenAI способна генерировать текст, напоминающий человеческий, отвечать на вопросы, а также генерировать компьютерный код по запросу. На момент написания этой книги данная модель самая продвинутая в своем роде. Согласно оценкам, стоимость ее обучения (здесь имеется в виду только использование компьютеров без учета оплаты труда исследователей) составила 4,6 миллиона долларов США[122].

Добавьте к этому наличие доступа к данным и группы экспертов-исследователей, и вы поймете, почему обработка естественного языка (пока) остается недоступной большинству компаний. Хотя алгоритмы имеют открытый исходный код, массовый сбор данных и доступ к суперкомпьютерам остается прерогативой технологических гигантов.

Кроме того, при формулировании своих ожиданий следует учитывать то, что приложения, создаваемые технологическими гигантами, универсальны для миллионов людей, то есть предназначены для решения задач, общих для представителей всех слоев общества. Например, голосовой помощник Alexa от компании Amazon предназначен для всех, включая детей. А текстовый перевод осуществляется с учетом жестких правил, встроенных в наборы обучающих данных. Слову «вечеринка» в английском языке соответствует слово «фиеста» в испанском. Суть в том, что все пользователи этих систем ожидают того, что они будут работать одинаково.

Сравните это с задачей классификации текста, специфической для того или иного бизнеса. Например, тональность фразы «телефон Samsung лучше, чем iPhone» зависит от того, в какой компании вы работаете, – Apple или Samsung. Данные, к которым у вас есть доступ, могут отличаться особенным, уникальным только для

1 ... 47 48 49 50 51 52 53 54 55 ... 69

Перейти на страницу:

На этой странице вы можете бесплатно скачать Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман торрент бесплатно.

Пожаловаться на ошибку

Похожие книги

Энциклопедия разработчика модулей ядра Linux - Ори Померанц

18.05.2024 - 00:00

Язык программирования C++. Пятое издание - Стенли Липпман

09.08.2024 - 18:00

VBA для чайников - Стив Каммингс

22.12.2023 - 13:31

ЯЗЫК ПРОГРАММИРОВАНИЯ С# 2005 И ПЛАТФОРМА .NET 2.0. 3-е издание - Эндрю Троелсен

22.12.2023 - 14:16

iOS. Приемы программирования - Вандад Нахавандипур

19.03.2024 - 16:00