KDD проти обміну даними
KDD (Discovery Knowledge in Databases) - це галузь інформатики, яка включає інструменти та теорії, які допомагають людині отримувати корисну та невідому раніше інформацію (тобто знання) з великих колекцій оцифрованих даних. KDD складається з декількох етапів, і Data Mining - один з них. Data Mining - це застосування певного алгоритму з метою отримання шаблонів з даних. Тим не менш, KDD та Data Mining використовуються взаємозамінно.
Що таке KDD?
Як було сказано вище, KDD - це галузь інформатики, яка займається вилученням раніше невідомої та цікавої інформації із необроблених даних. KDD - це весь процес спроби осмислити дані шляхом розробки відповідних методів чи прийомів. Цей процес стосується відображення даних низького рівня в інші форми, більш компактні, абстрактні та корисні. Це досягається шляхом створення коротких звітів, моделювання процесу генерації даних та розробки прогнозних моделей, які можуть передбачати майбутні випадки. Через експоненціальний ріст даних, особливо в таких сферах, як бізнес, KDD став дуже важливим процесом для перетворення цього великого багатства даних у бізнес-аналітику, оскільки ручне вилучення шаблонів стало, здавалося б, неможливим за останні кілька десятиліть. Наприклад, він зараз використовується для різних застосувань, таких як аналіз соціальних мереж, виявлення шахрайства, наука, інвестиції, виробництво, телекомунікації, очищення даних, спорт, пошук інформації та багато в чому для маркетингу. KDD зазвичай використовується для відповіді на такі питання, які основні продукти, які можуть допомогти отримати високий прибуток в наступному році в Wal-Mart ?. Цей процес має кілька етапів. Він починається з розробки розуміння домену програми та мети, а потім створення цільового набору даних. Далі слід очищення, попередня обробка, зменшення та прогнозування даних. Наступним кроком є використання Data Mining (пояснено нижче) для виявлення шаблону. Нарешті, відкриті знання закріплюються шляхом візуалізації та / або інтерпретації.
Що таке майнінг даних?
Як було сказано вище, майнінг даних - це лише крок у загальному процесі KDD. Існує дві основні цілі майнінгу даних, визначені ціллю програми, і це, зокрема, перевірка чи виявлення. Перевірка - це перевірка гіпотези користувача щодо даних, тоді як виявлення автоматично знаходить цікаві зразки. Існує чотири основні завдання пошуку даних: кластеризація, класифікація, регресія та асоціація (узагальнення). Кластеризація - це виявлення подібних груп з неструктурованих даних. Класифікація - це правила навчання, які можна застосувати до нових даних. Регресія - це пошук функцій з мінімальною помилкою для моделювання даних. І асоціація шукає зв’язків між змінними. Потім потрібно вибрати конкретний алгоритм виведення даних. Залежно від поставленої мети можна вибрати різні алгоритми, такі як лінійна регресія, логістична регресія, дерева рішень та Naive Naes. Потім здійснюються пошук моделей, що цікавлять одну чи кілька репрезентативних форм. Нарешті, моделі оцінюються або з використанням точності прогнозування, або зрозумілості.
Яка різниця між KDD та Data mining?
Хоча два терміни KDD та Data Mining широко використовуються взаємозамінно, вони посилаються на два пов'язані, але дещо різні поняття. KDD - це загальний процес вилучення знань з даних, тоді як Data Mining - це крок всередині KDD-процесу, який стосується виявлення шаблонів даних. Іншими словами, Data Mining - це лише застосування певного алгоритму, заснованого на загальній меті процесу KDD.