weka tutorial how download
Цей посібник WEKA пояснює, що таке інструмент машинного навчання Weka, його особливості та способи завантаження, встановлення та використання програмного забезпечення для машинного навчання Weka:
В Попередній підручник , ми дізналися про Support Vector Machine у ML та пов'язані з ними концепції, такі як Hyperplane, Вектори підтримки та додатки SVM.
Машинне навчання - це галузь науки, де машини виступають як штучно інтелектуальна система. Машини можуть навчатись самі, не вимагаючи явного кодування. Це ітераційний процес, який отримує доступ до даних, навчається сам і передбачає результат. Для виконання завдань машинного навчання потрібно багато інструментів та сценаріїв.
WEKA - це платформа машинного навчання, що складається з безлічі інструментів, що полегшують багато видів діяльності з машинного навчання.
=> Прочитайте повну навчальну серію машинного навчання
як виглядає інтернет-модем
Що ви дізнаєтесь:
- Що таке WEKA
- Висновок
Що таке WEKA
Weka - це інструмент з відкритим кодом, розроблений та розроблений вченими / дослідниками з Університету Ваікато, Нова Зеландія. WEKA розшифровується як середовище Waikato для аналізу знань. Він розроблений міжнародною науковою спільнотою та поширюється за безкоштовною ліцензією GNU GPL.
WEKA повністю розроблена на Java. Він забезпечує інтеграцію з базою даних SQL за допомогою підключення до бази даних Java. Він забезпечує безліч алгоритмів машинного навчання для реалізації завдань з інтелектуального аналізу даних. Ці алгоритми можуть бути використані безпосередньо за допомогою інструменту WEKA або можуть бути використані з іншими програмами, що використовують мову програмування Java.
Він надає багато інструментів для попередньої обробки даних, класифікації, кластеризації, регресійного аналізу, створення правил асоціації, вилучення функцій та візуалізації даних. Це потужний інструмент, який підтримує розробку нових алгоритмів машинного навчання.
Навіщо використовувати інструмент машинного навчання WEKA
Завдяки WEKA алгоритми машинного навчання легко доступні для користувачів. Фахівці ML можуть використовувати ці методи для вилучення корисної інформації з великих обсягів даних. Тут фахівці можуть створити середовище для розробки нових методів машинного навчання та впровадження їх на реальних даних.
WEKA використовується дослідниками машинного навчання та прикладних наук для навчальних цілей. Це ефективний інструмент для виконання багатьох завдань з обробки даних.
Завантаження та встановлення WEKA
# 1) Завантажте програмне забезпечення з тут .
Перевірте конфігурацію комп'ютерної системи та завантажте стабільну версію WEKA (на даний момент 3.8) з цієї сторінки.
# два) Після успішного завантаження відкрийте розташування файлу та двічі клацніть на завантаженому файлі. З'явиться майстер посилення. Натисніть Далі.
# 3) Відкриються умови ліцензійної угоди. Уважно прочитайте його та натисніть “Погоджуюсь”.
# 4) Відповідно до ваших вимог виберіть компоненти для встановлення. Рекомендується повнокомпонентна установка. Натисніть Далі.
# 5) Виберіть папку призначення та натисніть Далі.
# 6) Потім розпочнеться встановлення.
# 7) Якщо Java не встановлена в системі, вона спочатку встановить Java.
# 8) Після завершення встановлення з’явиться таке вікно. Натисніть Далі.
# 9) Установіть прапорець Почати Weka. Клацніть на Готово.
# 10) Відкриється вікно WEKA Tool і Explorer.
# одинадцять) Посібник WEKA можна завантажити з тут.
Графічний інтерфейс користувача WEKA
Графічний інтерфейс WEKA надає п’ять варіантів: Провідник, Експериментатор, Потік знань, Workbench та Простий CLI. Давайте розберемося в кожному з них окремо.
# 1) Простий CLI
Простий CLI - це оболонка Weka з командним рядком та вихідними даними. За допомогою «Довідка» можна переглянути огляд усіх команд. Простий CLI пропонує доступ до всіх класів, таких як класифікатори, кластери, фільтри тощо.
Деякі прості команди CLI:
- Перерва: Щоб зупинити поточний потік
- Вихід: Вийдіть з CLI
- Довідка (): Виводить довідку для вказаної команди
- -java weka.classifiers.trees.J48 -t c: /temp/iris.arff: Щоб викликати клас WEKA, додайте до нього префікс Java. Ця команда направить WEKA на завантаження класу та його виконання із заданими параметрами. У цій команді класифікатор J48 викликається на наборі даних IRIS.
# 2) Провідник
У вікнах WEKA Explorer відображаються різні вкладки, починаючи з попередньої обробки. Спочатку вкладка попередньої обробки активна, оскільки спочатку набір даних попередньо обробляється перед застосуванням до нього алгоритмів і досліджує набір даних.
Вкладки такі:
- Попередня обробка: Виберіть та змініть завантажені дані.
- Класифікувати: Застосовуйте алгоритми навчання та тестування до даних, які класифікують та регресують дані.
- Кластер: Формуйте кластери з даних.
- Партнер: Видалити правило асоціації даних.
- Виберіть атрибути: Застосовуються заходи щодо відбору атрибутів.
- Візуалізуйте: Видно двовимірне представлення даних.
- Рядок стану: У нижньому розділі вікна відображається рядок стану. Цей розділ показує, що зараз відбувається у формі повідомлення, наприклад, завантажується файл. Клацніть правою кнопкою миші на цьому, Пам'ять інформація можна побачити, а також Біжи сміття колектор для звільнення місця можна запустити.
- Кнопка журналу: Він зберігає журнал усіх дій у Weka із позначкою часу. Журнали відображаються в окремому вікні при натисканні кнопки Журнал.
- Ікона птахів WEKA: У нижньому правому куті зображено птах WEKA з числом процесів, що виконуються одночасно (на x.). Коли процес запущений, птах рухатиметься.
# 3) Експериментатор
Кнопка експериментатора WEKA дозволяє користувачам створювати, запускати та модифікувати різні схеми в одному експерименті на наборі даних. Експериментатор має 2 типи конфігурації: Простий і вдосконалений. Обидві конфігурації дозволяють користувачам проводити експерименти локально та на віддалених комп'ютерах.
- Кнопки «Відкрити» та «Нове» відкриють нове вікно експерименту, яке можуть зробити користувачі.
- Результати: Встановіть файл призначення результату з файлів ARFF, JDFC та CSV.
- Тип експерименту: Користувач може вибирати між перехресною валідацією та відсотком поділу поїздів / тестів. Користувач може вибирати між класифікацією та регресією на основі набору даних та класифікатора.
- Набори даних: Користувач може переглядати та вибирати набори даних звідси. Прапорець відносного шляху клацне, якщо працює на різних машинах. Підтримуваний формат наборів даних - ARFF, C4.5, CSV, libsvm, bsi та XRFF.
- Ітерація: Ітераційне число за замовчуванням встановлене 10. Спочатку набори даних та алгоритми допомагають переключатися між набором даних та алгоритмами, щоб алгоритми могли запускатися на всіх наборах даних.
- Алгоритми: Нові алгоритми додає 'Нова кнопка'. Користувач може вибрати класифікатор.
- Збережіть експеримент за допомогою кнопки Зберегти.
- Запустіть експеримент за допомогою кнопки Виконати.
# 4) Потік знань
Потік знань показує графічне представлення алгоритмів WEKA. Користувач може вибрати компоненти та створити робочий процес для аналізу наборів даних. Дані можна обробляти пакетно або поступово. Можуть бути розроблені паралельні робочі процеси, кожен з яких працюватиме в окремому потоці.
Доступні різні компоненти Джерела даних, заставки даних, фільтри, класифікатори, кластери, оцінка та візуалізація.
# 5) Верстак
WEKA має модуль робочого столу, який містить усі графічні інтерфейси в одному вікні.
Особливості Провідника WEKA
# 1) Набір даних
Набір даних складається з елементів. Він представляє об'єкт наприклад: у маркетинговій базі даних вона представлятиме споживачів та товари. Набори даних описуються атрибутами. Набір даних містить набори даних у базі даних. Набір даних має атрибути, які можуть бути іменними, числовими або рядковими. У Weka набір даних представлений weka.core. Відстані клас.
Представлення набору даних з 5 прикладами:
@data
сонячно, НЕПРАВИЛЬНО, 85,85, ні
сонячно, ПРАВДА, 80,90, ні
похмуро, ЛЕЖЕ, 83,86, так
дощовий, FALSE, 70,96, так
дощовий, FALSE, 68,80, так
Що таке атрибут?
Атрибут - це поле даних, що представляє характеристику об'єкта даних. Наприклад, у базі даних клієнтів атрибутами будуть customer_id, customer_email, customer_address тощо. Атрибути мають різні типи.
Ці можливі типи:
А) Номінальні атрибути: Атрибут, який відноситься до імені та має заздалегідь визначені значення, такі як колір, погода. Ці атрибути називаються категоріальні атрибути . Ці атрибути не мають порядку, і їх значення також називаються переліченнями.
@attribute outlook {сонячно, похмуро, дощово}: декларація іменного атрибута.
Б) Двійкові атрибути: Ці атрибути представляють лише значення 0 та 1. Це тип номінальних атрибутів, що мають лише 2 категорії. Ці атрибути також називаються булевими.
В) Порядкові атрибути: Атрибути, які зберігають певний порядок чи рейтинг серед них, є порядковими атрибутами. Послідовні значення не можна передбачити, але підтримується лише порядок. Приклад: розмір, сорт тощо.
Г) Числові атрибути: Атрибути, що представляють вимірювані величини, є числовими атрибутами. Вони представлені дійсними чи цілими числами. Приклад: температура, вологість.
@attribute вологість реальна: оголошення числового атрибута
E) Атрибути рядка: Ці атрибути представляють список символів, представлених у подвійних лапках.
# 2) Формат даних ARFF
WEKA працює над файлом ARFF для аналізу даних. ARFF розшифровується як Формат файлу відношення атрибутів. Він має 3 розділи: відношення, атрибути та дані. Кожен розділ починається з “@”.
Файли ARFF беруть атрибути даних Nominal, Numeric, String, Date і Relational. Деякі з добре відомих наборів даних машинного навчання присутні в WEKA як ARFF.
Формат для ARFF:
@ відношення
@attribute
@data
Прикладом файлу ARFF є:
@relation weather @attribute outlook {sunny, overcast, rainy}: @attribute temperature real @attribute humidity real @attribute windy {TRUE, FALSE} @attribute play {yes, no} //class attribute: The class attribute represents the output. @data sunny, FALSE,85,85,no sunny, TRUE,80,90,no overcast, FALSE,83,86,yes rainy, FALSE,70,96,yes rainy, FALSE,68,80,yes
# 3) Формат даних XRFF
XRFF означає XML-атрибут Relation File Format. Він представляє дані, які можуть зберігати коментарі, атрибути та ваги екземплярів. Він має розширення .xrff та розширення файлу .xrff.gz (стислий формат). Файли XRFF представляли дані у форматі XML.
# 4) Підключення до бази даних
За допомогою WEKA легко підключитися до бази даних за допомогою драйвера JDBC. Драйвер JDBC необхідний для підключення до бази даних, приклад:
MS SQL Server (com.microsoft.jdbc.sqlserver.SQLServerDriver)
Oracle (oracle.jdbc.driver.OracleDriver)
# 5) Класифікатори
Для прогнозування вихідних даних WEKA містить класифікатори. Доступні для навчання алгоритми класифікації - це дерева рішень, векторні машини підтримки, класифікатори на основі екземплярів, логістична регресія та байєсівські мережі. Залежно від вимоги, використовуючи пробне і тестове дослідження, користувач може знайти відповідний алгоритм для аналізу даних. Класифікатори використовуються для класифікації наборів даних на основі характеристик атрибутів.
# 6) Кластеризація
WEKA використовує вкладку Кластер для прогнозування схожості набору даних. На основі кластеризації користувач може знаходити атрибути, корисні для аналізу, та ігнорувати інші атрибути. Доступні алгоритми кластеризації в WEKA - це k-середні, EM, павутиння, X-середні та FarhtestFirst.
No7) Асоціація
Єдиний доступний в WEKA алгоритм для з’ясування правил асоціації - Apriori.
№8) Заходи розділу атрибутів
WEKA використовує 2 підходи для найкращого вибору атрибутів для цілей розрахунку:
- Використання алгоритму методу пошуку: Найперший, прямий вибір, випадковий, вичерпний, генетичний алгоритм та алгоритм ранжування.
- За допомогою алгоритмів методу оцінки: На основі кореляції, обгортка, приріст інформації, хі-квадрат.
# 9) Візуалізація
WEKA підтримує двовимірне представлення даних, тривимірні візуалізації з обертанням та одновимірне представлення одного атрибута. Він має опцію “Jitter” для номінальних атрибутів та “прихованих” точок даних.
Іншими основними особливостями WEKA є:
- Це інструмент з відкритим кодом із графічним інтерфейсом користувача у формі “Провідник”, “Експериментатор” та “Потік знань”.
- Це не залежить від платформи.
- Він містить 49 інструментів попередньої обробки даних.
- У WEKA представлено 76 алгоритмів класифікації та регресії, 8 алгоритмів кластеризації
- Він має 15 алгоритмів вибору атрибутів та 10 алгоритмів вибору особливостей.
- Він має 3 алгоритми пошуку правила асоціації.
- Користуючись WEKA, користувачі можуть розробляти власний код для машинного навчання.
Висновок
У цьому посібнику WEKA ми запропонували вступ до програмного забезпечення для машинного навчання з відкритим вихідним кодом і пояснили покроковий процес завантаження та встановлення. Ми також бачили п'ять варіантів, доступних для графічного інтерфейсу Weka, а саме: Explorer, Experimenter, Flow of Knowledge, Workbench та Simple CLI.
Ми також дізналися про особливості WEKA на прикладах. Функції включають набір даних, формат даних ARFF, підключення до бази даних тощо.
=> Відвідайте тут ексклюзивну серію машинного навчання
Рекомендована література
- Набір даних WEKA, класифікатор та алгоритм J48 для дерева рішень
- Провідник WEKA: Візуалізація, кластеризація, Майнінг правил асоціацій
- 11 Найпопулярніших програмних засобів машинного навчання в 2021 році
- Повне керівництво зі штучної нейронної мережі в машинному навчанні
- Видобуток даних проти машинного навчання проти штучного інтелекту проти глибокого навчання
- Підручник з машинного навчання: Вступ до ML та його застосування
- 13 найкращих компаній машинного навчання (Оновлений список 2021)
- Що таке підтримка векторної машини (SVM) у машинному навчанні