weka dataset classifier
Цей підручник пояснює набір даних WEKA, класифікатор та алгоритм J48 для дерева рішень. Також надає інформацію про зразки наборів даних ARFF для Weka:
В Попередній підручник , ми дізналися про інструмент машинного навчання Weka, його особливості та про те, як завантажувати, встановлювати та використовувати програмне забезпечення для машинного навчання Weka.
WEKA - це бібліотека алгоритмів машинного навчання для вирішення проблем інтелектуального аналізу даних на реальних даних. WEKA також забезпечує середовище для розробки багатьох алгоритмів машинного навчання. Він має набір інструментів для виконання різних завдань з видобутку даних, таких як класифікація даних, кластеризація даних, регресія, вибір атрибутів, часте видобування наборів елементів тощо.
Всі ці завдання можна виконати за файлом sample.ARFF, який є у сховищі WEKA, або користувачі можуть підготувати свої файли даних. Зразки файлів .arff - це набори даних, що мають вбудовані історичні дані, зібрані дослідниками.
=> Прочитайте повну навчальну серію машинного навчання
У цьому підручнику ми побачимо деякі зразки наборів даних у WEKA, а також виконаємо аналіз даних алгоритму дерева рішень за допомогою набору даних weather.arff.
Що ви дізнаєтесь:
Вивчення наборів даних WEKA
Інструмент машинного навчання WEKA надає каталог деяких зразків наборів даних. Ці набори даних можна безпосередньо завантажити в WEKA, щоб користувачі могли негайно розпочати розробку моделей.
Набори даних WEKA можна вивчити за посиланням “C: Program Files Weka-3-8 data”. Набори даних мають формат .arff.
Зразки наборів даних WEKA
Деякі зразки наборів даних, присутні в WEKA, наведені в таблиці нижче:
S.No | Зразки наборів даних |
---|---|
7. | діабет.арф |
1. | авіакомпанія.arff |
2. | рак молочної залози |
3. | контактна лінза |
Чотири. | cpu.arff |
5. | cpu.with-vendor.arff |
6. | кредит-г.арф |
8. | скло.арф |
9. | гіпотиреоз. арф |
10. | ionospehre.arff |
одинадцять. | ірис. 2D. арф |
12. | ірис. арф |
13. | праці.арф |
14. | ReutersCorn-train.arff |
п’ятнадцять. | ReutersCorn-test.arff |
16. | ReutersGrain-train.arff |
17. | ReutersGrain-test.arff |
18. | segment-challenge.arff |
19. | сегмент-тест.арф |
двадцять. | соя.арф |
двадцять один. | супермаркет.арф |
22. | незбалансований.арф |
2. 3. | голосувати.арф |
24. | погода.числово.арф |
25. | погода.номінальна.арф |
Давайте розглянемо деякі з них:
контактна лінза
contact-lens.arff набір даних - це база даних для встановлення контактних лінз. Він був подарований донором Бенуа Жульєном у 1990 році.
База даних: Ця база даних повна. Приклади, використані в цій базі даних, є повними та безшумними. База даних містить 24 екземпляри та 4 атрибути.
Атрибути: Всі чотири атрибути номінальні. Немає відсутніх значень атрибутів. Чотири атрибути такі:
# 1) Вік пацієнта: атрибут вік може приймати значення:
- молодий
- допресбіопічний
- пресбіопічний
# два) Рецепт окулярів: Цей атрибут може приймати значення:
- короткозорий
- гіперметроп
# 3) Астигматичний: Цей атрибут може приймати значення
- ні
- так
# 4) Швидкість виробництва сліз: Значення можуть бути
- зменшено
- нормальний
Клас: Тут визначено три мітки класів. Це:
- пацієнт повинен мати жорсткі контактні лінзи.
- пацієнт повинен бути обладнаний м’якими контактними лінзами.
- пацієнту не слід встановлювати контактні лінзи.
Розподіл класів: Екземпляри, класифіковані за мітками класів, перелічені нижче:
Етикетка класу | Кількість екземплярів | |
---|---|---|
1. | Жорсткі контактні лінзи | 4 |
2. | М'які контактні лінзи | 5 |
3. | Без контактних лінз | п’ятнадцять |
ірис. арф
Набір даних iris.arff був створений в 1988 році Майклом Маршаллом. Це база даних Iris Plants.
найкращий безкоштовний завантажувач відео Windows 10
База даних: Ця база даних використовується для розпізнавання зразків. Набір даних містить 3 класи по 50 екземплярів. Кожен клас представляє тип рослини ірису. Один клас лінійно відокремлюється від інших 2, але останні не лінійно відокремлюються один від одного. Він передбачає, до яких видів із квітки 3 ірису належить спостереження. Це називається багатокласним набором класифікацій.
Атрибути: Він має 4 числові, передбачувальні атрибути та клас. Немає відсутніх атрибутів.
Атрибутами є:
- довжина чашолистка в см
- ширина чашолистка в см
- довжина пелюстки в см
- ширина пелюстки в см
- клас:
- Ірис Сетоса
- Iris Versicolor
- Ірис Вірджиніка
Підсумкова статистика:
Хв | Макс | Середній | SD | Кореляція класу | |
---|---|---|---|---|---|
довжина чашолистка | 4.3 | 7.9 | 5.84 | 0,83 | 0,7826 |
ширина чашолистка | 2.0 | 4.4 | 3.05 | 0,43 | -0,4194 |
довжина пелюстки | 1.0 | 6.9 | 3.76 | 1,76 | 0,9490 (високий!) |
ширина пелюстки | 0,1 | 2.5 | 1.20 | 0,76 | 0,9565 (високий!) |
Розподіл класів: 33,3% для кожного з 3 класів
Деякі інші набори даних:
діабет.арф
База даних цього набору даних - Pima Indians Diabetes. Цей набір даних передбачає, чи схильний пацієнт до діабету протягом наступних 5 років. Пацієнтами в цьому наборі даних є жінки жіночого віку щонайменше 21 року з Індійської спадщини Піма. Він має 768 екземплярів та 8 числових атрибутів плюс клас. Це набір даних двійкової класифікації, де передбачена вихідна змінна є номінальною, що складається з двох класів.
іоносфера.арф
Це популярний набір даних для двійкової класифікації. Екземпляр у цьому наборі даних описує властивості радіолокаційних віддач від атмосфери. Він використовується для прогнозування того, де іоносфера має якусь структуру чи ні. Він має 34 числові атрибути та клас.
Атрибут класу 'хороший' або 'поганий', що передбачається на основі спостереження за 34 атрибутами. Отримані сигнали обробляються функцією автокореляції, приймаючи в якості аргументів імпульс часу та число імпульсів.
Набори даних регресії
Набори даних регресії можна завантажити з веб-сторінки WEKA “ Колекції наборів даних '. У ньому 37 проблем регресії, отриманих з різних джерел. Завантажений файл створить числовий / каталог з наборами даних регресії у форматі .arff.
Популярні набори даних, присутні в каталозі: Економічний набір даних Лонглі (longley.arff), набір даних про ціни в будинку в Бостоні (housing.arff) та набір даних про сон у ссавців (sleep.arff).
Давайте тепер подивимося, як ідентифікувати справжні та номінальні атрибути в наборі даних за допомогою WEKA explorer.
Що таке справжні та номінальні атрибути
Справжні атрибути - це числові атрибути, що містять лише реальні значення. Це вимірювані величини. Ці атрибути можуть мати масштаб інтервалу, наприклад, температуру або коефіцієнт, такий як середнє, медіана.
Іменні атрибути представляють імена або певне зображення речей. У таких атрибутах немає порядку, і вони представляють якусь категорію. Наприклад, колір.
Дотримуйтесь наведених нижче кроків, щоб використовувати WEKA для ідентифікації реальних значень та номінальних атрибутів у наборі даних.
# 1) Відкрийте WEKA та виберіть «Провідник» у розділі «Програми».
# два) Виберіть вкладку “Попередній процес”. Клацніть на “Відкрити файл”. З користувачем WEKA ви можете отримати доступ до зразків файлів WEKA.
# 3) Виберіть вхідний файл із папки WEKA3.8, що зберігається в локальній системі. Виберіть заздалегідь визначений файл .arff “credit-g.arff” і натисніть “Відкрити”.
# 4) На лівій панелі відкриється список атрибутів. Статистика вибраних атрибутів відображатиметься на правій панелі разом з гістограмою.
Аналіз набору даних:
На лівій панелі поточне відношення показує:
- Назва відносини: german_credit - це зразок файлу.
- Екземпляри: 1000 кількість рядків даних у наборі даних.
- Атрибути: 21 атрибут у наборі даних.
На панелі нижче поточного відношення показано назву атрибутів.
На правій панелі, відображається статистика вибраних атрибутів. Виберіть атрибут “перевірка_статусу”.
Це показує:
- Назва атрибута
- Відсутній: Будь-які відсутні значення атрибута в наборі даних. 0% у цьому випадку.
- Відмінні: Атрибут має 4 різні значення.
- Тип: Атрибут має номінальний тип, тобто не приймає жодного числового значення.
- Рахувати: Серед 1000 екземплярів у стовпці count записується кількість кожної окремої мітки класу.
- Гістограма: Він буде відображати вихідну мітку класу для атрибута. Мітка класу в цьому наборі даних є доброю чи поганою. Є 700 випадків хороших (позначені синім кольором) і 300 випадків поганих (позначених червоним кольором).
- Для етикетки<0, the instances for good or bad are almost the same in number.
- Для етикетки - 0<= X<200, the instances with decision good are more than instances with bad.
- Подібним чином, для label> = 200, максимальна кількість випадків трапляється на хороший результат, і жодна перевірочна мітка не має більше екземплярів із прийнятим рішенням.
Для наступного атрибута “тривалість”.
На правій панелі показано:
- Ім'я: Це ім'я атрибута.
- Тип: Тип атрибута є числовим.
- Відсутнє значення: Атрибут не має відсутніх значень.
- Відмінні: Він має 33 різні значення в 1000 примірниках. Це означає, що в 1000 примірниках він має 33 різні значення.
- Унікальний: Він має 5 унікальних значень, які не збігаються між собою.
- Мінімальне значення: Мінімальне значення атрибута - 4.
- Максимальне значення: Максимальне значення атрибута - 72.
- Середнє: Середнє - це додавання всіх значень, поділених на екземпляри.
- Стандартне відхилення: Stdвідхилення тривалості атрибута.
- Гістограма: Гістограма зображує тривалість 4 одиниці, максимальна кількість випадків зустрічається для хорошого класу. Зі збільшенням тривалості до 38 одиниць кількість примірників зменшується для ярликів хорошого класу. Тривалість сягає 72 одиниць, у яких є лише один екземпляр, який кваліфікує рішення як погане.
Клас є класифікаційною ознакою іменного типу. Він має два різних значення: добре і погано. Мітка хорошого класу налічує 700 примірників, а мітка поганого класу - 300 примірників.
Щоб візуалізувати всі атрибути набору даних, натисніть «Візуалізувати все».
# 5) Щоб дізнатися лише числові атрибути, натисніть кнопку Фільтр. Звідти натисніть Виберіть -> WEKA> ФІЛЬТРИ -> Неконтрольований тип -> Видалити тип.
Фільтри WEKA мають багато функціональних можливостей для перетворення значень атрибутів набору даних, щоб зробити його придатним для алгоритмів. Наприклад, числове перетворення атрибутів.
Фільтрування номінальних та дійсних атрибутів із набору даних - ще один приклад використання фільтрів WEKA.
# 6) Клацніть на RemoveType на вкладці фільтра. Відкриється вікно редактора об’єктів. Виберіть attributeType “Видалити числові атрибути” і натисніть кнопку OK.
# 7) Застосувати фільтр. Будуть показані лише числові атрибути.
Атрибут class номінального типу. Він класифікує вихідні дані, і тому не може бути видалений. Таким чином, це видно з числовим атрибутом.
Вихід:
У наборі даних визначаються атрибути реального значення та номінального значення. Візуалізація з міткою класу розглядається у вигляді гістограм.
Алгоритми класифікації дерева рішень Weka
Тепер ми побачимо, як реалізувати класифікацію дерева рішень на наборі даних weather.nominal.arff за допомогою класифікатора J48.
погода.номінальна.арф
Це зразок набору даних, присутній у прямій WEKA. Цей набір даних передбачає, чи погода підходить для гри в крикет. Набір даних має 5 атрибутів і 14 екземплярів. Мітка класу «відтворити» класифікує результати як «так» чи «ні».
Що таке дерево рішень
Дерево рішень - це метод класифікації, який складається з трьох компонентів кореневий вузол, гілка (край або ланка) та листяний вузол. Корінь представляє умову тесту для різних атрибутів, гілка представляє всі можливі результати, які можуть бути там у тесті, а листові вузли містять мітку класу, до якого він належить. Кореневий вузол знаходиться на початку дерева, яке також називають вершиною дерева.
Класифікатор J48
Це алгоритм для створення дерева рішень, яке генерується за допомогою C4.5 (розширення ID3). Він також відомий як статистичний класифікатор. Для класифікації дерева рішень нам потрібна база даних.
Кроки включають:
# 1) Відкрийте провідник WEKA.
# два) Виберіть файл weather.nominal.arff у меню «вибрати файл» під опцією вкладки попередньої обробки.
# 3) Перейдіть на вкладку «Класифікація» для класифікації некласифікованих даних. Натисніть кнопку «Вибрати». З цього виберіть “дерева -> J48”. Давайте також швидко переглянемо інші варіанти в кнопці Вибрати:
- Байєс: Це оцінка щільності для числових атрибутів.
- Мета: Це лінійна регресія з багатьма відповідями.
- Функції: Це логістична регресія.
- Ледачий: Він автоматично встановлює ентропію суміші.
- Правило: Це правило, яке навчається.
- Дерева: Дерева класифікують дані.
# 4) Клацніть на кнопку Пуск. Вихід класифікатора буде видно на правій панелі. Він відображає інформацію про запуск на панелі як:
- Схема: Використовуваний алгоритм класифікації.
- Екземпляри: Кількість рядків даних у наборі даних.
- Атрибути: Набір даних має 5 атрибутів.
- Кількість листків та розмір дерева описує дерево рішень.
- Час, необхідний для побудови моделі: Час на вихід.
- Повна класифікація J48 обрізана з атрибутами та кількістю випадків.
# 5) Щоб візуалізувати дерево, клацніть правою кнопкою миші на результат і виберіть візуалізувати дерево.
Вихідні дані :
Вихідні дані представлені у вигляді дерева рішень. Головним атрибутом є “світогляд”.
Якщо прогноз сонячний, потім дерево додатково аналізує вологість. Якщо вологість висока, тоді маркування класу відтворюється = 'так'.
Якщо прогноз похмурий, клас етикетки, гра 'так'. Кількість випадків, які підлягають класифікації, становить 4.
Якщо прогноз дощовий, подальша класифікація проводиться для аналізу ознаки «вітряний». Якщо вітряно = істина, гра = 'ні'. Кількість випадків, які підпадають під класифікацію outlook = windy і windy = true, дорівнює 2.
Висновок
WEKA пропонує широкий спектр зразків наборів даних для застосування алгоритмів машинного навчання. Користувачі можуть виконувати такі завдання машинного навчання, такі як класифікація, регресія, вибір атрибутів, асоціація на цих зразках наборів даних, а також можуть вивчити інструмент, використовуючи їх.
Провідник WEKA використовується для виконання декількох функцій, починаючи з попередньої обробки. Попередня обробка приймає вхід як файл .arff, обробляє вхідні дані і видає вихідні дані, які можуть бути використані іншими комп'ютерними програмами. У WEKA вихід попередньої обробки дає атрибути, присутні в наборі даних, які надалі можуть бути використані для статистичного аналізу та порівняння з мітками класів.
WEKA також пропонує багато алгоритмів класифікації для дерева рішень. J48 - один із популярних алгоритмів класифікації, який виводить дерево рішень. За допомогою вкладки Класифікація користувач може візуалізувати дерево рішень. Якщо дерево рішень занадто заповнене, обрізку дерева можна застосувати на вкладці Попередній процес, видаливши непотрібні атрибути, і знову розпочати процес класифікації.
=> Відвідайте тут ексклюзивну серію машинного навчання
Рекомендована література
- Підручник Weka - Як завантажити, встановити та використовувати інструмент Weka
- Як писати складні сценарії тестування бізнес-логіки, використовуючи техніку таблиць рішень
- Провідник WEKA: Візуалізація, кластеризація, Майнінг правил асоціацій
- Приклади алгоритму дерева рішень у видобутку даних
- Конструкції для прийняття рішень на C ++
- Структура даних дерева B та дерева B + у C ++
- Структура даних двійкового дерева в C ++
- Структура даних дерева та купи AVL у C ++