Категории

Блог
Биографии
Фантастика и фэнтези
- Социально-философская фантастика
- Ненаучная фантастика
- Ироническое фэнтези
- Книги магов
- Любовное фэнтези
- Разная фантастика
- Боевое фэнтези
- Иностранное фэнтези
- Городское фентези
- Сказочная фантастика
- Разное фэнтези
- Романтическое фэнтези
- Историческая фантастика
- Зарубежная фантастика
- Стимпанк
- Социально-философская фантастика
- Ироническая фантастика
- Детективная фантастика
- Киберпанк
- Попаданцы
- LitRPG
- Космоопера
- Технофэнтези
- Городская фантастика
- Русское фэнтези
- Юмористическая фантастика
- Космическая фантастика
- Романтическая фантастика
- Мистика
- Эпическая фантастика
- Историческое фэнтези
- Ужасы и Мистика
- Постапокалипсис
- Героическая фантастика
- Фэнтези
- Научная Фантастика
- Социально-психологическая
- Альтернативная история
- Боевая фантастика
Бизнес
- Личная эффективность
- Торговля
- Бизнес
- Интернет-бизнес
- Личная эффективность
- Финансы
- Менеджмент
- Личные финансы
- Продажи
- Бизнес
- Банковское дело
- Корпоративная культура, бизнес
- Краткое содержание
- Поиск работы
- Делопроизводство, офис
- Зарубежная деловая литература
- Переговоры
- Государственное и муниципальное управление
- Ораторское искусство / риторика
- Малый бизнес
- Тайм-менеджмент
- Работа с клиентами
- Бухучет и аудит
- О бизнесе популярно
- Управление, подбор персонала
- Экономика
- Кадровый менеджмент
- Менеджмент и кадры
- Ценные бумаги и инвестиции
Приключения
- Вестерн
- Приключения про индейцев
- Зарубежные приключения
- Путешествия и география
- Исторические приключения
- Прочие приключения
- Морские приключения
- Природа и животные
Старинная литература
- Зарубежная старинная литература
- Мифы. Легенды. Эпос
- Древневосточная литература
- Древнерусская литература
- Фольклор
- Античная литература
- Европейская старинная литература
- Прочая старинная литература
Религия и духовность
- Религии: разное
- Хиромантия
- Буддизм
- Религия: протестантизм
- Религия: христианство
- Православие
- Зарубежная религиозная литература и эзотерика
- Язычество, паганизм
- Индуизм
- Религия: иудаизм
- Религия: ислам
- Религия: окультизм
- Религия
- Эзотерика
- Самосовершенствование
- Прочая религиозная литература
Компьютеры и Интернет
- Интернет
- Программное обеспечение
- Компьютерное "железо"
- Программы
- Базы данных
- Прочая околокомпьтерная литература
- Программирование
Любовные романы
- Порно
- Прочие любовные романы
- Фемслеш
- Слеш
- Исторические любовные романы
- Зарубежные любовные романы
- Эротика
- love
- Роман
- Остросюжетные любовные романы
- Современные любовные романы
- Короткие любовные романы
- Любовно-фантастические романы
Поэзия, Драматургия
- Экспериментальная поэзия
- Сценарии
- Киносценарии
- в стихах
- Кино, театр
- Трагедия
- Театр
- Песенная поэзия
- Басни
- Лирика
- Палиндромы
- Эпическая поэзия
- Зарубежная поэзия
- Верлибры
- Водевиль
- Зарубежная драматургия
- Мистерия
- Драматургия
- Драма
- Поэзия
Детская литература
- Зарубежные детские книги
- Детские детективы
- Школьные учебники
- Книги для дошкольников
- Книги для подростков
- Детская познавательная и развивающая литература
- Внеклассное чтение
- Детский фольклор
- Детская фантастика
- Детские остросюжетные
- Детские стихи
- Детские приключения
- Учебная литература
- Прочая детская литература
- Сказка
- Детская проза
- Детская образовательная литература
Юмор
- Сатира
- Драматургия
- Комедия
- Любовные романы
- Анекдоты
- Юмористические стихи
- Юмористическое фэнтези
- Юмористическая проза
- Прочий юмор
Документальные книги
- Искусство и Дизайн
- Критика
- Публицистика
- Прочая документальная литература
- Военная документалистика
- Биографии и Мемуары
Научные и научно-популярные книги
- Рефераты
- Астрология
- Биохимия
- Литературоведение
- Математика
- Физика
- Образовательная литература
- Зарубежная публицистика
- Филология
- География
- Зоология
- Беременность, ожидание детей
- Социология
- Детская психология
- Педагогика
- Радиотехника
- Альтернативная медицина
- О животных
- Химия
- Экология
- География
- Ветеринария
- Обществознание
- Учебники
- Государство и право
- Транспорт, военная техника
- Ботаника
- Архитектура
- Зарубежная психология
- Биофизика
- История Европы
- Культурология
- Юриспруденция
- Биология
- Науки: разное
- Медицина
- Психология, личное
- Психотерапия
- Политика
- Воспитание детей, педагогика
- Деловая литература
- Науки о космосе
- Научпоп
- Языкознание
- Иностранные языки
- Религиоведение
- История
- Техническая литература
- Прочая научная литература
- Психология
Разная литература
- Пословицы, поговорки
- Шахматы
- Подростковая литература
- Военное
- Современная зарубежная литература
- Кино
- Литература 19 века
- Недвижимость
- Цитаты из афоризмов
- Великолепные истории
- Авто и ПДД
- Военная история
- Изобразительное искусство, фотография
- Музыка, танцы
- Музыка, музыканты
- Спецслужбы
- Визуальные искусства
- Начинающие авторы
- Зарубежная прикладная литература
- Готические новеллы
- Зарубежная литература о культуре и искусстве
- Боевые искусства
- Истории из жизни
- Гиды, путеводители
- Зарубежная образовательная литература
- Современная литература
- Культура и искусство
- Фанфик
- Отраслевые издания
- Прочее
- Военная техника, оружие
- Газеты и журналы
- Периодические издания
Домоводство, Дом и семья
- Фэн-шуй
- Ремонт в квартире
- Домашнее хозяйство
- Прочее домоводство
- Сад и огород
- Домашние животные
- Дом, семья
- Интерьеры
- Отдых / туризм
- Рыбалка
- Охота
- Здоровье
- Развлечения
- Кулинария
- Спорт
- Семейная психология
- Эротика, Секс
- Сделай сам
- Хобби и ремесла
Бизнес
- Маркетинг, PR, реклама
Справочная литература
- Энциклопедии
- Прочая справочная литература
- Словари
- Руководства
- Справочники
Детективы и Триллеры
- Иностранный детектив
- Маньяки
- Зарубежные боевики
- Исторический детектив
- Детектив
- Триллер
- Боевик
- Криминальный детектив
- Полицейский детектив
- Крутой детектив
- Политический детектив
- Иронический детектив
- Классический детектив
- Шпионский детектив
Проза
- Зарубежная современная проза
- Афоризмы
- Очерки
- Зарубежная классика
- Эссе
- Магический реализм
- Сентиментальная проза
- Эпистолярная проза
- Семейный роман/Семейная сага
- Феерия
- Новелла
- Антисоветская литература
- Проза
- Историческая проза
- Русская современная проза
- Разное
- Советская классическая проза
- Повести
- Рассказы
- Русская классическая проза
- Современная проза
- О войне
- Контркультура
- Классическая проза

Актуальное

Самые читаемые книги

Последний попаданец 7 - Константин Зубов

Динка прощается с детством - Валентина Осеева

В мире животных Олега Турковского. Осенние работы в саду и в огороде... ('Сделай сам' №3∙2020) - Панфилов

История средних веков - Валентина Казакова

Конференц-анатомия. Как найти себя в мире индустрии встреч - Александра Юркова

Такой была подводная война - Гаральд Буш

ЧитаемОнлайн » Компьютеры и Интернет » Программирование » Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман

Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман

Читать онлайн Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман

Шрифт:

Интервал:

Закладка:

Сделать

1 ... 34 35 36 37 38 39 40 41 42 ... 69

Перейти на страницу:

из них лучше? Определить это нам поможет линейная регрессия

Можно попробовать угадать. На среднем графике на рис. 9.2 показаны четыре возможные линии, и все эти предположения кажутся вполне разумными. Но это всего лишь предположения: как бы они ни были к этому близки, они не объясняют основополагающие взаимосвязи в данных.

Линейная регрессия предполагает выполнение вычислений для получения линии наилучшего соответствия. Под наилучшим соответствием мы подразумеваем то, что данная линия оптимальным образом объясняет имеющийся линейный тренд и разброс данных. Она представляет собой оптимальное решение, насколько это возможно с математической точки зрения с учетом предоставленных данных. На правом графике на рис. 9.2 показан результат применения линейной регрессии в виде уравнения: Продажи = 1,03 (Температура) – 71,07.

Давайте посмотрим, как это работает.

Регрессия методом наименьших квадратов: больше, чем умное название

Давайте на мгновение сосредоточимся на нашей выходной переменной – уровне продаж лимонада. Если бы мы хотели спрогнозировать объем будущих продаж, разумно было бы вычислить среднее значение для прошлых показателей (12 + 13 + 15 + 14 + 17 + 16 + 19) / 7 = 15,14 доллара. Итак, мы получили простую линейную модель, согласно которой Продажи = 15,14 доллара.

Обратите внимание на то, что это по-прежнему линейное уравнение, только без учета температуры. Это означает, что вне зависимости от температуры мы прогнозируем продажи на уровне 15,14 доллара. Мы знаем, что это весьма наивное предположение, но оно соответствует нашему определению модели, сопоставляющей входные данные с выходными, даже если все выходные данные являются одинаковыми.

Итак, насколько хороша наша простая модель? Чтобы оценить ее производительность, давайте подсчитаем, насколько далеко прогнозируемый уровень продаж находится от каждого из фактических показателей. При температуре 86 °F (30 °C) вы продали лимонада на 19 долларов, а модель предсказывала 15,14 доллара. При температуре 81 °F (27 °C) вы продали лимонада на 12 долларов, а прогноз модели опять же составлял 15,14 доллара. В первом случае прогноз оказался примерно на 4 доллара ниже фактического значения, а во втором – примерно на 3 доллара выше. На данный момент наша модель далека от идеала. И чтобы как следует оценить ее предсказательную способность, нам нужно понять разницу между прогнозом модели и тем, что произошло на самом деле. Эта разница называется погрешностью и показывает, насколько сильно прогнозное значение отклоняется от фактического.

Как же можно измерить эту погрешность, чтобы понять, насколько хорошо работает наша модель? Для этого мы могли бы взять каждую фактическую цену продажи и вычесть ее из среднего прогнозного значения, которое составляет 15,14 доллара. Однако в этом случае результат суммирования погрешностей всегда будет равен нулю, потому что среднее значение, которое мы используем в качестве предиктора, представляет собой арифметический центр этих точек. Итоговая разность между всеми этими точками и центральным значением всегда равна нулю.

Однако нам все-таки нужен какой-то способ агрегировать эти погрешности, поскольку модель явно далека от идеала. Наиболее распространен так называемый метод наименьших квадратов, который предполагает возведение всех значений разности в квадрат для того, чтобы сделать их положительными[85]. При суммировании этих чисел результат не будет равен нулю (такое возможно, только если в наших данных вообще нет погрешностей). Полученный результат мы называем суммой квадратов.

Рассмотрим рис. 9.3(а). На нем вы видите исходную диаграмму рассеяния, где x = Температура, а y = Продажи. Обратите внимание: мы применили здесь нашу наивную модель, прогнозное значение которой не зависит от температуры и всегда равно 15,14, что дает нам горизонтальную линию Продажи = 15,14. Другими словами: точка данных с температурой = 86 (30 °C) и фактическим значением продаж = 19 соответствует прогнозному значению продаж = 15,14. Сплошная вертикальная линия показывает разницу между фактическим и прогнозным значением для этой точки (и всех остальных точек). При использовании регрессии мы возводим длину этой линии в квадрат, чтобы получить квадрат с площадью 14,9.

Фактическому уровню продаж в 15 долларов так же соответствует прогнозное значение 15,14 доллара, поэтому соответствующий квадрат имеет площадь (15,14–15)2 = 0,02. Сложив площади квадратов для всех точек, мы получим суммарную погрешность нашей простой модели. В правой части рис. 9.3(а) процесс вычисления суммы квадратов ошибок представлен наглядно. Чем больше сумма квадратов, тем хуже модель соответствует данным, и наоборот: чем меньше сумма квадратов, тем лучше соответствие.

Рис. 9.3. Регрессия методом наименьших квадратов предполагает нахождение такой линии, при которой сумма площадей квадратов отклонений прогнозируемых значений от фактических является минимальной

Возникает вопрос: можем ли мы найти такое значение наклона и точки пересечения, которые позволяют оптимизировать (то есть минимизировать) сумму квадратов отклонений? В настоящее время наша наивная модель не имеет наклона, но имеет точку пересечения на отметке 15,14 доллара.

Очевидно, что модель, представленная на рис. 9.3 (а), не оптимальна. Чтобы приблизиться к оптимуму, давайте добавим наклон m, введя в уравнение переменную температуры. На рис. 9.3(b) мы предполагаем, что разумными значениями для наклона и точки пересечения могут быть 0,6 и –34,91 соответственно. Это превращает нашу модель с плоской линией, представленную на рис. 9.3(а), в наклонную линию, которая отражает некоторый восходящий тренд. Кроме того, мы сразу замечаем уменьшение общей площади квадратов.

Благодаря включению в модель переменной температуры значение отклонения существенно уменьшилось. Прогнозное значение для точки с температурой = 86 (30 °C) изменилось с 15,14 в случае простой модели на Продажи = 0,6(86) – 34,91 = 16,69, что привело к уменьшению вклада соответствующего наблюдения в сумму квадратов с 14,9 до (16,69–19)2 = 5,34.

Вы могли бы подставлять значения наклона и точки пересечения вплоть до получения единственной комбинации, минимизирующей сумму квадратов. Однако линейная регрессия позволяет сделать это математически. На рис. 9.3(с) показана наименьшая сумма квадратов ошибок для имеющихся данных. Малейшее отклонение от указанных значений наклона и точки пересечения привело бы к увеличению площадей этих квадратов.

Вы можете использовать эту информацию, чтобы оценить, насколько хорошо итоговая модель соответствует данным. Результат линейной регрессии, показанный на рис. 9.3(c), все еще не идеален, однако он явно превосходит модель, представленную на рис. 9.3 (а), прогнозное значение которой каждый раз составляло 15,14 доллара.

Насколько превосходит? Мы начали с площади (суммы квадратов) в 34,86, а при использовании итоговой модели эта площадь уменьшилась до 7,4. Это значит, что мы уменьшили общую площадь на (34,86–7,4) = 27,46, то есть на 27,46/34,86 = 78,8 %. В таких случаях часто говорят, что модель «объяснила», «описала» или «предсказала» 78,8 % (или 0,788) дисперсии данных. Это число называется «R-квадратом» или R2.

Если модель идеально соответствует данным, R2

1 ... 34 35 36 37 38 39 40 41 42 ... 69

Перейти на страницу:

На этой странице вы можете бесплатно скачать Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман торрент бесплатно.

Пожаловаться на ошибку

Похожие книги

Энциклопедия разработчика модулей ядра Linux - Ори Померанц

18.05.2024 - 00:00

Язык программирования C++. Пятое издание - Стенли Липпман

09.08.2024 - 18:00

VBA для чайников - Стив Каммингс

22.12.2023 - 13:31

ЯЗЫК ПРОГРАММИРОВАНИЯ С# 2005 И ПЛАТФОРМА .NET 2.0. 3-е издание - Эндрю Троелсен

22.12.2023 - 14:16

iOS. Приемы программирования - Вандад Нахавандипур

19.03.2024 - 16:00