Протягом багатьох років множинні класифікаційні системи, які також називаються ансамблевими системами, були популярною темою дослідження і користувалися все більшою увагою в середовищі обчислювальної інтелекту та машинного навчання. Це викликало інтерес науковців з кількох галузей, включаючи машинне навчання, статистику, розпізнавання образів та відкриття знань у базах даних. З часом методи ансамблю зарекомендували себе як дуже ефективні та універсальні у широкому спектрі проблемних областей та реальних програм. Спочатку розроблений для зменшення розбіжності в автоматизованій системі прийняття рішень, ансамблеві методи з тих пір використовуються для вирішення різноманітних проблем машинного навчання. Ми представляємо огляд двох найвидатніших алгоритмів ансамблю - Bagging і Random Forest -, а потім обговорюємо відмінності між двома.
У багатьох випадках було показано, що мішковина, яка використовує відбір проб завантаження, класифікаційний трес має більш високу точність, ніж окреме дерево класифікації. Баггінг - це один із найстаріших і найпростіших алгоритмів на основі ансамблю, який можна застосовувати до алгоритмів на основі дерев, щоб підвищити точність прогнозів. Існує ще одна вдосконалена версія пакетування під назвою алгоритм Random Forest, який, по суті, являє собою ансамбль дерев рішень, підготовлений з механізмом пакетування. Давайте подивимось, як працює алгоритм випадкових лісів і чим він відрізняється, ніж пакунок в ансамблевих моделях.
Агрегація завантажувального завантаження, також відома як мішковина, є одним із найбільш ранніх та найпростіших алгоритмів на основі ансамблю, щоб зробити дерева рішень більш надійними та досягти кращих показників. Концепція розробки мішків полягає в поєднанні прогнозів кількох базових учнів, щоб створити більш точний результат. Лео Брейман представив алгоритм розфасовки в 1994 році. Він показав, що агрегація завантажувальних трендів може принести бажані результати в нестабільних алгоритмах навчання, коли невеликі зміни в навчальних даних можуть спричинити великі зміни в прогнозах. Запуск завантаження - це зразок набору даних із заміною, і кожен зразок генерується шляхом вибірки рівномірного навчального набору розміром m, поки не буде отримано новий набір з m екземплярами..
Випадковий ліс - це керований алгоритм машинного навчання, заснований на ансамблевому навчанні та еволюції оригінального алгоритму розробки Бреймана. Це велике вдосконалення щодо мішків з деревами рішень, щоб створити кілька дерев рішень та об'єднати їх, щоб отримати точний результат. Брейман додав додаткову випадкову варіацію в процедуру розфасування, створюючи більшу різноманітність серед отриманих моделей. Випадкові ліси відрізняються від мішкованих дерев тим, що змушують дерево використовувати лише підмножину наявних передбачувачів для поділу на фазі росту. Усі дерева рішень, які складають випадковий ліс, різні, оскільки кожне дерево побудоване на різних випадкових підмножинах даних. Оскільки це мінімізує перевитрати, воно, як правило, є більш точним, ніж одне дерево рішень.
- Як мішковинні, так і випадкові ліси - це алгоритми, засновані на ансамблі, спрямовані на зменшення складності моделей, що перевищують дані тренувань. Агрегація завантажувальних машин, також її називають мішковиною, є одним із найдавніших і потужних методів ансамблю для запобігання надмірного оснащення. Це мета-техніка, яка використовує кілька класифікаторів для підвищення точності прогнозування. Баггінг просто означає малювати випадкові зразки з навчального зразка для заміни, щоб отримати ансамбль різних моделей. Випадковий ліс - це керований алгоритм машинного навчання, заснований на ансамблевому навчанні та еволюції оригінального алгоритму розробки Бреймана.
- Концепція відбору проб завантаження (завантаження) полягає в тому, щоб підготувати купу дерев, що не піддаються набору рішень, на різних випадкових підмножинах даних про навчання, вибірки із заміною, щоб зменшити розбіжність дерев рішень. Ідея полягає в поєднанні прогнозів кількох базових учнів, щоб створити більш точний результат. З випадковими лісами в процедуру забою додається додаткова випадкова зміна, щоб створити більшу різноманітність серед отриманих моделей. Ідея випадкових лісів полягає в тому, щоб побудувати кілька дерев рішень та об'єднати їх, щоб отримати точний результат.
- І пакетовані дерева, і випадкові ліси є найпоширенішими інструментами навчання ансамблів, що використовуються для вирішення різноманітних проблем машинного навчання. Вибірка завантажувального завантаження - це мета-алгоритм, призначений для підвищення точності та стабільності моделей машинного навчання з використанням ансамблевого навчання та зменшення складності моделей накладання. Алгоритм випадкових лісів дуже надійний проти надмірного розміщення, і це добре з незбалансованими та відсутніми даними. Це також є кращим вибором алгоритму побудови прогнозних моделей. Мета - зменшити дисперсію шляхом усереднення декількох дерев глибоких рішень, навчених на різних зразках даних.
І пакетовані дерева, і випадкові ліси є найпоширенішими інструментами навчання ансамблів, що використовуються для вирішення різноманітних проблем машинного навчання. Баггінг - це один із найстаріших і найпростіших алгоритмів на основі ансамблю, який можна застосовувати до алгоритмів на основі дерев, щоб підвищити точність прогнозів. Випадкові ліси, з іншого боку, є керованим алгоритмом машинного навчання та вдосконаленою версією моделі відбору проб завантаження, яка використовується як для регресії, так і для проблем класифікації. Ідея випадкового лісу полягає в тому, щоб побудувати кілька дерев рішень та об'єднати їх, щоб отримати точний результат. Випадковий ліс, як правило, є більш точним, ніж одне дерево рішень, оскільки мінімізує перевитрату.