Категории

Блог
Биографии
Фантастика и фэнтези
- Социально-философская фантастика
- Социально-философская фантастика
- Ненаучная фантастика
- Ироническое фэнтези
- Книги магов
- Любовное фэнтези
- Разная фантастика
- Боевое фэнтези
- Иностранное фэнтези
- Городское фентези
- Сказочная фантастика
- Разное фэнтези
- Романтическое фэнтези
- Историческая фантастика
- Зарубежная фантастика
- Стимпанк
- Ироническая фантастика
- Детективная фантастика
- Киберпанк
- Попаданцы
- LitRPG
- Космоопера
- Технофэнтези
- Городская фантастика
- Русское фэнтези
- Юмористическая фантастика
- Космическая фантастика
- Романтическая фантастика
- Мистика
- Эпическая фантастика
- Историческое фэнтези
- Ужасы и Мистика
- Постапокалипсис
- Героическая фантастика
- Фэнтези
- Научная Фантастика
- Социально-психологическая
- Альтернативная история
- Боевая фантастика
Бизнес
- Личная эффективность
- Торговля
- Бизнес
- Интернет-бизнес
- Личная эффективность
- Финансы
- Менеджмент
- Личные финансы
- Продажи
- Бизнес
- Банковское дело
- Корпоративная культура, бизнес
- Краткое содержание
- Поиск работы
- Делопроизводство, офис
- Зарубежная деловая литература
- Переговоры
- Государственное и муниципальное управление
- Ораторское искусство / риторика
- Малый бизнес
- Тайм-менеджмент
- Работа с клиентами
- Бухучет и аудит
- О бизнесе популярно
- Управление, подбор персонала
- Экономика
- Кадровый менеджмент
- Менеджмент и кадры
- Ценные бумаги и инвестиции
Приключения
- Вестерн
- Приключения про индейцев
- Зарубежные приключения
- Путешествия и география
- Исторические приключения
- Прочие приключения
- Морские приключения
- Природа и животные
Старинная литература
- Зарубежная старинная литература
- Мифы. Легенды. Эпос
- Древневосточная литература
- Древнерусская литература
- Фольклор
- Античная литература
- Европейская старинная литература
- Прочая старинная литература
Религия и духовность
- Религии: разное
- Хиромантия
- Буддизм
- Религия: протестантизм
- Религия: христианство
- Православие
- Зарубежная религиозная литература и эзотерика
- Язычество, паганизм
- Индуизм
- Религия: иудаизм
- Религия: ислам
- Религия: окультизм
- Религия
- Эзотерика
- Самосовершенствование
- Прочая религиозная литература
Компьютеры и Интернет
- Интернет
- Программное обеспечение
- Компьютерное "железо"
- Программы
- Базы данных
- Прочая околокомпьтерная литература
- Программирование
Любовные романы
- Слеш
- Фемслеш
- Эротика
- Порно
- Прочие любовные романы
- Исторические любовные романы
- Зарубежные любовные романы
- love
- Роман
- Остросюжетные любовные романы
- Современные любовные романы
- Короткие любовные романы
- Любовно-фантастические романы
Поэзия, Драматургия
- Экспериментальная поэзия
- Сценарии
- Киносценарии
- в стихах
- Кино, театр
- Трагедия
- Театр
- Песенная поэзия
- Басни
- Лирика
- Палиндромы
- Эпическая поэзия
- Зарубежная поэзия
- Верлибры
- Водевиль
- Зарубежная драматургия
- Мистерия
- Драматургия
- Драма
- Поэзия
Детская литература
- Буквари
- Зарубежные детские книги
- Детские детективы
- Школьные учебники
- Книги для дошкольников
- Книги для подростков
- Детская познавательная и развивающая литература
- Внеклассное чтение
- Детский фольклор
- Детская фантастика
- Детские остросюжетные
- Детские стихи
- Детские приключения
- Учебная литература
- Прочая детская литература
- Сказка
- Детская проза
- Детская образовательная литература
Юмор
- Сатира
- Драматургия
- Комедия
- Любовные романы
- Анекдоты
- Юмористические стихи
- Юмористическое фэнтези
- Юмористическая проза
- Прочий юмор
Документальные книги
- Искусство и Дизайн
- Критика
- Публицистика
- Прочая документальная литература
- Военная документалистика
- Биографии и Мемуары
Научные и научно-популярные книги
- Рефераты
- Астрология
- Биохимия
- Литературоведение
- Математика
- Физика
- Образовательная литература
- Зарубежная публицистика
- Филология
- География
- Зоология
- Беременность, ожидание детей
- Социология
- Детская психология
- Педагогика
- Радиотехника
- Альтернативная медицина
- О животных
- Химия
- Экология
- География
- Ветеринария
- Обществознание
- Учебники
- Государство и право
- Транспорт, военная техника
- Ботаника
- Архитектура
- Зарубежная психология
- Биофизика
- История Европы
- Культурология
- Юриспруденция
- Биология
- Науки: разное
- Медицина
- Психология, личное
- Психотерапия
- Политика
- Воспитание детей, педагогика
- Деловая литература
- Науки о космосе
- Научпоп
- Языкознание
- Иностранные языки
- Религиоведение
- История
- Техническая литература
- Прочая научная литература
- Психология
Разная литература
- Пословицы, поговорки
- Шахматы
- Подростковая литература
- Военное
- Современная зарубежная литература
- Кино
- Литература 19 века
- Недвижимость
- Цитаты из афоризмов
- Великолепные истории
- Авто и ПДД
- Военная история
- Изобразительное искусство, фотография
- Музыка, танцы
- Музыка, музыканты
- Спецслужбы
- Визуальные искусства
- Начинающие авторы
- Зарубежная прикладная литература
- Готические новеллы
- Зарубежная литература о культуре и искусстве
- Боевые искусства
- Истории из жизни
- Гиды, путеводители
- Зарубежная образовательная литература
- Современная литература
- Культура и искусство
- Фанфик
- Отраслевые издания
- Прочее
- Военная техника, оружие
- Газеты и журналы
- Периодические издания
Домоводство, Дом и семья
- Фэн-шуй
- Ремонт в квартире
- Домашнее хозяйство
- Прочее домоводство
- Сад и огород
- Домашние животные
- Дом, семья
- Интерьеры
- Отдых / туризм
- Рыбалка
- Охота
- Здоровье
- Развлечения
- Кулинария
- Спорт
- Семейная психология
- Эротика, Секс
- Сделай сам
- Хобби и ремесла
Бизнес
- Маркетинг, PR, реклама
Справочная литература
- Энциклопедии
- Прочая справочная литература
- Словари
- Руководства
- Справочники
Детективы и Триллеры
- Иностранный детектив
- Маньяки
- Зарубежные боевики
- Исторический детектив
- Детектив
- Триллер
- Боевик
- Криминальный детектив
- Полицейский детектив
- Крутой детектив
- Политический детектив
- Иронический детектив
- Классический детектив
- Шпионский детектив
Проза
- Юмор
- Зарубежная современная проза
- Афоризмы
- Очерки
- Зарубежная классика
- Эссе
- Магический реализм
- Сентиментальная проза
- Эпистолярная проза
- Семейный роман/Семейная сага
- Феерия
- Новелла
- Антисоветская литература
- Проза
- Историческая проза
- Русская современная проза
- Разное
- Советская классическая проза
- Повести
- Рассказы
- Русская классическая проза
- Современная проза
- О войне
- Контркультура
- Классическая проза

Актуальное

Самые читаемые книги

Последний попаданец 7 - Константин Зубов

Динка прощается с детством - Валентина Осеева

В мире животных Олега Турковского. Осенние работы в саду и в огороде... ('Сделай сам' №3∙2020) - Панфилов

История средних веков - Валентина Казакова

Конференц-анатомия. Как найти себя в мире индустрии встреч - Александра Юркова

Такой была подводная война - Гаральд Буш

ЧитаемОнлайн » Бизнес » Бизнес » Революция в аналитике. Как в эпоху Big Data улучшить ваш бизнес с помощью операционной аналитики - Билл Фрэнкс

Революция в аналитике. Как в эпоху Big Data улучшить ваш бизнес с помощью операционной аналитики - Билл Фрэнкс

Читать онлайн Революция в аналитике. Как в эпоху Big Data улучшить ваш бизнес с помощью операционной аналитики - Билл Фрэнкс

Шрифт:

Интервал:

Закладка:

Сделать

1 ... 36 37 38 39 40 41 42 43 44 ... 77

Перейти на страницу:

Одна из причин использовать Hadoop заключается в том, что данные неравноценны по своей природе. Например, данные об операциях по текущим банковским счетам отражают реальный факт перемещения денег, тогда как пост на Twitter – всего лишь чье-то мнение. Твиты далеко не так ценны, как сведения о финансовых транзакциях, поэтому нет смысла хранить их в дорогостоящей системе, где они скорее всего редко будут использоваться. Hadoop же позволяет организациям хранить малоценные данные на тот случай, если вдруг они пригодятся. Также в ней можно хранить необработанные лог-файлы, из которых извлечены фрагменты с важной информацией. Благодаря архивированию необработанных файлов в Hadoop всегда можно вернуться к ним позже и извлечь из них дополнительную информацию, если в ней возникнет необходимость. Использование Hadoop для целей архивирования похоже на непрерывное резервное копирование файлов с последующим легким к ним доступом – вместо неудобной заправки ленты. Наконец, архивирование необработанных данных может очень пригодиться в случае аудиторских проверок или возникновения юридических вопросов.

Hadoop можно сравнить с аффинажным заводом по переработке железорудного сырья. Здесь скальную породу, содержащую руду, загружают в плавильную печь, где породу перемалывают, нагревают и переплавляют в железные слитки, отделяя отходы. Hadoop работает точно так же: собирает большие объемы твитов, перерабатывает их при помощи инструментов текстового анализа и выплавляет из терабайтов мнений гораздо меньшие по размеру (и гораздо более ценные!) подборки информации, скажем, о покупательских предпочтениях или трендах. Затем эти железные слитки (аналитические результаты) передаются в производственную систему (реляционное окружение), где им придается еще большая ценность в виде металлопроката, балок и другой готовой продукции. Сегодня, благодаря низкой стоимости хранения малоценных данных, можно хранить гораздо бо́льшие объемы, чем в прошлом.

Hadoop становится первоначальным хранилищем для многих источников данных. Кроме того, она может быть использована для очистки и обработки данных, как было описано выше, чтобы сделать их пригодными для дальнейшего применения в аналитических целях. Например, текстовые данные из имейлов, отзывов клиентов или постов в социальных сетях не очень полезны в необработанном формате. Чтобы извлечь из таких текстовых данных полезную информацию, к ним необходимо применить алгоритмы текстового анализа. Скажем, ценная информация включает знание того, кто разместил пост в социальных сетях, является ли его тональность положительной, о каких продуктах идет речь и т. д. Hadoop идеально подходит для процессов, предназначенных извлекать такую информацию из текста, поскольку она позволяет осуществлять параллельный анализ текста. Затем уже структурированные данные, извлеченные из текста, можно включать в аналитический процесс.

Среди недостатков Hadoop – потребность тщательно следить за тем, чтобы при программировании в параллельном окружении создавался правильный ответ. Многие выкладки, которые просты для выполнения в однопотоковом окружении, требуют совершенно другого подхода в параллельных системах. Существуют два типа параллелизма: на уровне узлов или исполняемых модулей и на уровне системы. Параллелизм на уровне узлов заключается в простом выполнении одной и той же программы на каждом узле. Узлы не взаимодействуют между собой и не обмениваются информацией. Гораздо сложнее параллелизм на уровне системы, поскольку он предполагает координацию работы всех узлов и обмен информацией между ними для получения правильного результата. Таким образом, программисты должны быть внимательны при написании программы, с тем чтобы она соответствовала уровню параллелизма, который требуется для выполнения данной задачи.

Любые данные, в любом формате, любого объема

Способность Hadoop работать с любыми объемами данных в любом формате делает ее важной опорой единого аналитического окружения.

Например, вы не можете получить среднее значение, применяя процесс на уровне узлов или исполняемого модуля, поскольку каждый модуль сначала вычислит среднее значение на основе имеющихся у него данных, а затем сообщит вам свое среднее значение. Но, как вы помните из курса введения в статистику, вычисление среднего значения из средних значений не даст вам искомого правильного ответа. Вам нужно подсчитать общую сумму, чтобы затем вычислить общее среднее значение. (В качестве иллюстрации см. рис. 5.5 и 5.6.) Для обеспечения точности вычислений в Hadoop программисты должны заложить в программу надлежащий уровень параллелизма. В противоположность этому параллельное реляционное окружение построено таким образом, что параллелизм на уровне системы является в ней стандартом.

Сегодня на рынок приходят пакеты, дополняющие Hadoop синтаксисом наподобие SQL или даже методологией извлечения данных. Однако эти варианты все еще не являются настолько надежными, чтобы удовлетворять требованиям крупных организаций. Это возвращает нас к необходимости использовать каждую платформу в соответствии с ее назначением. Как указывалось в четвертой главе, с некоторыми задачами Hadoop справляется лучше других опций, но есть и задачи, где она проявляет себя неважно.

Как узнать, какой тип обработки подходит для Hadoop? Простейший тест должен определить: могут или нет ваши вычисления осуществляться параллельно и независимо друг от друга на отдельных узлах? Если независимая обработка подмножества данных каждого исполняемого модуля даст вам такой же ответ, как и обработка всего массива данных в одной большой системе, то Hadoop подойдет для таких вычислений. На рис. 5.5 и 5.6 проиллюстрированы примеры неправильного и правильного ее применения. Если же вы хотите узнать средний объем продаж по каждому отдельному потребителю, ответ будет правильным при условии, что все данные по каждому потребителю хранятся в одном модуле. Но если для получения ответа требуется передача данных между модулями, то, чтобы получить такой же ответ, как если бы все данные обрабатывались разом, Hadoop придется очень постараться. Разумеется, я чрезмерно упрощаю ситуацию, из которой имеются свои исключения, но эта рекомендация во многих случаях поможет вам выбрать правильное направление.

Еще один способ определить, насколько Hadoop подходит для управления алгоритмом, – это узнать, какого типа обработки, последовательной или непоследовательной, требует алгоритм. В реляционных системах SQL получает отвечающий комплект и шаги для прохождения каждой колонки цифр по маршруту, применяя к каждой записи заданные функции. SQL плохо справляется с задачами, когда для обработки необходимо перепрыгивать от колонки к колонке и от итерации к итерации (часто на основе результатов предыдущей итерации). Hadoop же использует такие языки программирования, как Java, Python или C++, которые лучше подходят для сложного управления данными, поскольку в этом случае не требуется последовательной построчной обработки.

Одна из интересных особенностей, связанных с использованием в Hadoop языков C++, Java и Python, состоит в том, что Hadoop не столько создает новые функции, сколько расширяет возможности масштабирования существующей функциональности. Любая программа, написанная сегодня на Java для Hadoop, могла быть написана несколько лет назад и реализована в традиционной однопоточной системе. Пусть используемый язык и не нов, зато ново окружение, где он применяется, что в огромной степени масштабирует применение Java.

Подведем итог: Hadoop в ее нынешнем виде лучше всего подходит для начального хранения данных из крупных источников и для начальных уточнения и обработки этих данных. Также Hadoop стоит использовать для хранения малоценных или нечасто используемых данных. Наконец, Hadoop замечательно подходит для архивирования. Однако в ближайшем будущем большинство организаций редко когда смогут использовать Hadoop для поддержки операционно-аналитических процессов в режиме реального времени.

Вспомогательные технологии

Вспомогательные технологии могут быть добавлены к единому аналитическому окружению с целью поддержки его опор. Эти вспомогательные технологии предназначены для специфических типов обработки или аналитики, являются гораздо более специализированными и применимы только в определенных случаях. Технологии, которые мы рассмотрим в этом разделе, будут продолжать развиваться, и со временем их список может расшириться. Также вполне возможно, что предлагаемая этими технологиями функциональность в конечном итоге будет встроена в одну или несколько опор и добавления вспомогательных компонентов не потребуется. Давайте рассмотрим некоторые из наиболее распространенных вспомогательных технологий по состоянию на начало 2014 г.

1 ... 36 37 38 39 40 41 42 43 44 ... 77

Перейти на страницу:

На этой странице вы можете бесплатно скачать Революция в аналитике. Как в эпоху Big Data улучшить ваш бизнес с помощью операционной аналитики - Билл Фрэнкс торрент бесплатно.

Пожаловаться на ошибку

Похожие книги

Управление на основе данных. Как интерпретировать цифры и принимать качественные решения в бизнесе - Тим Филлипс

13.04.2024 - 05:00

Революция платформ. Как сетевые рынки меняют экономику – и как заставить их работать на вас - Санджит Чаудари

14.08.2024 - 15:00

Оптимизация интернет-магазина. Почему 95% посетителей вашего сайта ничего не покупают и как это исправить - Йоханн ван Тондер

12.09.2024 - 05:00

Учитесь видеть бизнес-процессы. Построение карт потоков создания ценности - Майк Ротер

22.12.2023 - 13:46

Искусство плести социальные сети - Гай Кавасаки

14.07.2024 - 23:00