Обмін даними проти зберігання даних
Обмін даними та зберігання даних - це дуже потужні та популярні методи аналізу даних. Користувачі, схильні до статистики, використовують Data Mining. Вони використовують статистичні моделі для пошуку прихованих шаблонів даних. Майнери даних зацікавлені у пошуку корисних зв’язків між різними елементами даних, що в кінцевому рахунку вигідно для бізнесу. Але з іншого боку, фахівці з даних, які можуть аналізувати розміри бізнесу безпосередньо схильні використовувати сховища даних.
Обмін даними також відомий як Відкриття знань у даних (KDD). Як було сказано вище, це сфера інформатики, яка займається вилученням раніше невідомої та цікавої інформації із необроблених даних. Через експоненціальний ріст даних, особливо у таких сферах, як бізнес, видобуток даних став дуже важливим інструментом для перетворення цього великого багатства даних у бізнес-аналітику, оскільки ручне вилучення шаблонів стало, здавалося б, неможливим за останні кілька десятиліть. Наприклад, він зараз використовується для різних застосувань, таких як аналіз соціальних мереж, виявлення шахрайства та маркетинг. Обмін даними зазвичай займається такими чотирма завданнями: кластеризація, класифікація, регресія та асоціація. Кластеризація - це виявлення подібних груп з неструктурованих даних. Класифікація - це правила навчання, які можна застосувати до нових даних і, як правило, включатимуть наступні етапи: попередня обробка даних, проектування моделювання, вибір навчальних / функціональних можливостей та оцінка / перевірка. Регресія - це пошук функцій з мінімальною помилкою для моделювання даних. І асоціація шукає зв’язків між змінними. Обмін даними зазвичай використовується для відповіді на такі питання, які основні продукти, які можуть допомогти отримати високий прибуток наступного року в Wal-Mart?
Як вже було сказано вище, зберігання даних також використовується для аналізу даних, але різними наборами користувачів та на увазі дещо іншою метою. Наприклад, що стосується роздрібної торгівлі, користувачі, що зберігають дані, більше переймаються тим, які види покупок користуються популярністю серед покупців, тому результати аналізу можуть допомогти замовнику, покращивши його досвід. Але шахтарі даних спочатку придумують гіпотезу, таку, яку замовники купують певний тип товару та аналізують дані для перевірки гіпотези. Зберігання даних може здійснюватися великим роздрібним торговцем, який спочатку запасає свої магазини однаковими розмірами продукції, щоб згодом з'ясувати, що магазини менших розмірів набагато швидше, ніж у магазинах Чикаго. Отже, дивлячись на цей результат, роздрібний торговець може придбати нью-йоркський магазин менших розмірів порівняно з магазинами Чикаго.
Отже, як ви добре бачите, ці два види аналізу видаються неозброєним оком однакового характеру. Обидва занепокоєні збільшенням прибутку на основі історичних даних. Але, звичайно, є ключові відмінності. Простіше кажучи, обмін даними та зберігання даних присвячені наданню різних типів аналітики, але, безумовно, для різних типів користувачів. Іншими словами, Data Mining шукає кореляції, малюнки для підтримки статистичної гіпотези. Але, Склад даних відповідає на порівняно ширше запитання, і він зрізає і нарізає дані звідти і далі, щоб визначити шляхи вдосконалення в майбутньому.