Раскопки сокрытых данных

Опубликовано: 3 февраля 2005 г., четверг
Если вы видели ролики из рекламной кампании IBM под лозунгом "Решение для небольшой планеты", то не могли не обратить внимания на одетые с иголочки манекены, рассуждающие о прелестях добычи данных (data mining). В их устах добыча данных оказывается так же проста, как работа с электронными таблицами. Шумихи вокруг добычи данных ничуть не меньше, чем в свое время вокруг искусственного интеллекта и систем автоматизированного проектирования. Разница только в том, что первые два направления развивались преимущественно небольшими поставщиками, а в рассматриваемом нами случае бразды правления держат такие гиганты, как IBM и AT&T. Однако, несмотря на участие последних, добыча данных - это всего только формирующийся сектор рынка. Он настолько незрел, что поставщики и эксперты не выработали даже определения добычи данных. Наибольшим успехом добыча данных пользуется у реселлеров, использующих ее для выявления ранее необнаруженных образцов в заказах своих клиентов. Например, работающие с кредитными карточками компании, определив клиентов, купивших купальный костюм и записавшихся на уроки подводного плавания, посылают им затем купоны для получения скидки при путешествии на Карибы. Сеть универсальных магазинов, проанализировав покупательские корзины, приходит к выводу, что покупающие косметику покупают вместе с ней и поздравительные открытки. В результате им удается увеличить продажу и косметики, и открыток за счет того, что оба вида товаров теперь продаются в одном отделе. Каждый из этих информационных "самородков" помогает "добытчикам" увеличить прибыль, повысить уровень обслуживания клиентов и, следовательно, добиться преимущества в конкурентной борьбе. Проект для добычи Мощные системы добычи данных не терпят ошибок в проекте. Даже небольшая избыточность и неэффективность ведет к образованию заторов при опросе многогигабайтных или терабайтных хранилищ данных сложными многомерными запросами. Параллельная обработка - это краеугольный камень для создания успешной системы добычи данных. Так как каждый запрос запрашивает данные из различных хранилищ, обрабатывает их с использованием устройств ввода/вывода, а также выполняет итеративную сортировку и объединение, то последовательные процессоры возвращают ответ на запрос только через несколько дней или недель, если вообще это делают. Параллельные процессоры же разделяют запросы на крохотные куски и затем распределяют их между несколькими ЦПУ, извлекающими информацию параллельно. Появление сравнительно недорогих систем параллельной обработки дало возможность поставщикам повысить сложность программного обеспечения добычи данных. Благодаря параллельной обработке многие приложения для добычи данных стали ставить многомерные запросы, например: продажа сезонных товаров в северовосточном регионе в ноябре месяце [деятельность, товар, география, период времени]. Здравомыслящие проектировщики сетей структурируют обычно сети для добычи данных одним из двух способов: либо они используют большой центральный сервер для хранения данных и обращаются к нужным секторам данных только для обработки, либо они извлекают компоненты из складов данных и передают нужные части в меньшие вместилища данных. Типичная конфигурация дает возможность пользователям генерировать запросы с рабочей станции, затем запросы посылаются по локальной сети (обычно в виде того или иного запроса на SQL) суперсерверу, осуществляющему анализ и возвращающему ответ. Большинство проектировщиков сетей делят данные. Некоторые используют специализированные небольшие склады данных, называемые ярмарками данных, или даже меньшие копи данных. Эти хранилища подразделяют данные в зависимости от назначения (например, инвентарные данные) или по имени заказчика (например, по заказчикам, фамилии которых начинаются с буквы "А"). Это позволяет осуществлять добычу данных в меньших объемах данных, экономя время и затраты на обработку. Кое-где ярмарки данных, первоначально оптимизированные для добычи, затем подразделяются в соответствии с назначением. Каждая группа в корпорации использует отдельное хранилище данных, предоставляемое центральным хранилищам данных или даже более крупным ярмаркам данных. Подразделение по добыче данных в IBM рекомендует классическую трехзвенную логическую архитектуру для поддержки приложения по добыче данных. При этой схеме клиент запускает приложения и графически представляет результаты добычи данных. Сервер приложений, сердце приложения по добыче данных, хранит относящуюся к бизнесу и приложениям информацию и обрабатывает данные при помощи специально спроектированных инструментов. Сервер данных хранит оперативные и суммарные данные. "Большинство пользователей обращаются к 20% информации из базы данных в 80% случаев, - говорит Донна Рубен, менеджер по технологиям складирования данных в Sun. - Зная это, администраторы сетей могут выбрать инструмент с быстрым доступом к часто требуемым данным". Гигабайт за гигабайтом Если вы уж взялись за добычу данных, то, предупреждает Рубин, обратного пути нет. "Это как наркотик - с каждым разом хочется все больше", - говорит она. Учитывая вероятность "склонности к употреблению" сетевых пользователей, администратору локальной сети необходимо аккуратно спланировать наращивание приложений для добычи данных, но как это сделать? При первом знакомстве со средствами добычи данных большинство администраторов локальных сетей интересуются организацией оперативного доступа к накопленным рабочим данным. Некоторые администраторы обнаруживают, что данные содержат больше ошибок или повторений, чем ожидалось, быстро осознают, что они недооценили общий объем данных для оперативного доступа. Сейлор из MicroStrategy рассказал одну печальную историю о клиенте, который решил, что массив данных в 20 Гбайт вполне удовлетворит потребности его узла в добыче данных. Однако после начала добычи, массив данных удваивался каждые шесть недель и вскоре достиг 500 Гбайт. Если хорошо продумать первоначальный план, то с таким ростом справиться довольно легко. Сейлор советует администраторам локальных сетей не помещать 500 Гбайт данных на склад и надеяться добыть их оттуда, а нанять опытного консультанта, способного помочь в создании пилотного проекта размером в одну десятую - одну двенадцатую от ожидаемого объема операций по добыче данных.
Источник: olap.ru
Копировать, распространять, публиковать информацию портала News.lt без письменного согласия редакции запрещено.

Комментарии Facebook

Новый комментарий


Captcha

статьи по схожей тематике

Philips TLE821L: двухсимочный бюджетный планшет-«звонилка»

В настоящее время большинство техники, выходящей под брендом Philips, производят китайские либо тайваньские фирмы. Новый планшет Philips TLE821L – не исключение, его выпустила тайваньская компания Top Victory Electronics Co. дальше »

Xerox представила линейку новых офисных принтеров VersaLink

Компания Xerox выпустила ряд новых принтеров линейки VersaLink. Это монохромные принтеры Xerox VersaLink B400 и МФУ Xerox VersaLink B405, а также цветные принтеры Xerox VersaLink C400 и многофункциональное устройство (МФУ) Xerox VersaLink С405, которые предназначены для офисной работы. дальше »

HTC представила флагманский смартфон U11 с сенсорными рамками

Компания HTC официально представила свой новый флагман U11 с сенсорными рамками, отличающийся продвинутым стереозвуком динамиков и системой активного шумоподавления. дальше »

Представлен недорогой фаблет ZTE Blade X Max

Компания ZTE и североамериканский оператор Cricket объявили о выпуске нового бюджетного фаблета ZTE Blade X Max. дальше »

The Island Castaway: как выжить на острове, затерянном в океане

Если вы способны стать новым Робинзоном, оказавшимся на отдаленном острове, бороться с трудностями, чтобы выжить, то игра-симулятор The Island: Castaway поможет вам в этом. дальше »

Билл Гейтс объяснил, почему запрещает детям пользоваться смартфонами

Один из основателей Microsoft и богатейший человек в мире Билл Гейтс запрещал своим детям пользоваться смартфонами до 14 лет. Его примеру следуют многие руководители IT-компаний, опасающиеся негативного влияния электронных гаджетов на здоровье детей. дальше »

Oukitel U22 – смартфон с четырьмя камерами и двумя вспышками

Китайская компания Oukitel анонсировала бюджетный смартфон U22 сразу с четырьмя камерами: как на заднюю, и на переднюю панель установлены двойные модули. дальше »

Nokia 3310 (2017) уже поступил в продажу

Команда Nokia Mobile сообщила в Твиттере о старте продаж кнопочного телефона Nokia 3310, причем речь идет лишь о том, что 17 лет ожидания теперь позади и модель 3310 уже поступила в продажу. дальше »

BenQ PD2500Q: новый монитор для дизайнеров и профессиональной графики

BenQ Designer Monitor PD2500Q - визуально эффектный 25 "2K QHD (2560x1440) дисплей с высоким разрешением, который отображает каждую сложную деталь в вашей работе. дальше »

Jelly станет самым маленьким 4G-смартфоном в мире

Смартфон Jelly легко умещается на ладони и помещается в маленький карман джинсов. В высоту смартфон чуть больше 92 мм, а в ширину — 13 мм. дальше »