weka explorer visualization
Цей підручник пояснює, як виконувати візуалізацію даних, кластерний аналіз K-засобів та видобуток правил асоціації за допомогою WEKA Explorer:
В Попередній підручник , ми дізналися про набір даних WEKA, класифікатор та алгоритм J48 для дерева рішень.
Як ми вже бачили раніше, WEKA - це інструмент з відкритим вихідним кодом, який використовується багатьма дослідниками та студентами для виконання багатьох завдань машинного навчання. Користувачі можуть також створювати свої методи машинного навчання та проводити експерименти на зразках наборів даних, що містяться в каталозі WEKA.
Візуалізація даних у WEKA може здійснюватися за допомогою зразків наборів даних або створених користувачами наборів даних у форматі .arff, .csv.
=> Прочитайте повну навчальну серію машинного навчання
Добування правил асоціації виконується за допомогою алгоритму Апріорі. Це єдиний алгоритм, який WEKA забезпечує для частого видобутку шаблонів.
У WEKA існує багато алгоритмів для кластерного аналізу, таких як FartherestFirst, FilteredCluster, HierachicalCluster тощо. Із них ми будемо використовувати SimpleKmeans, який є найпростішим методом кластеризації.
Що ви дізнаєтесь:
- Добування правил асоціації за допомогою WEKA Explorer
- Алгоритм K-засобів за допомогою WEKA Explorer
- Впровадити візуалізацію даних за допомогою WEKA
- Висновок
Добування правил асоціації за допомогою WEKA Explorer
Давайте подивимося, як реалізувати видобуток правил асоціацій за допомогою WEKA Explorer.
Майнінг правил асоціації
Він розроблений і розроблений Шрікантом та Аггарвалом у 1994 році. Він допомагає нам знаходити закономірності в даних. Це процес видобутку даних, який знаходить об’єкти, що виникають разом, або об’єкти, які пов’язані між собою.
хто має найкращий сервіс електронної пошти
Застосування правил асоціацій включає аналіз ринкових кошиків для аналізу предметів, придбаних в одному кошику; Крос-маркетинг для співпраці з іншими компаніями, що збільшує цінність нашого бізнесу, наприклад, дилером автомобілів та нафтовою компанією.
Правила асоціації видобуваються після знаходження частих наборів елементів у великому наборі даних. Ці набори даних знаходять за допомогою алгоритмів майнінгу, таких як Apriori та FP Growth. Часті гірничодобувні дані видобутку даних за допомогою засобів підтримки та довіри.
Підтримка та впевненість
Підтримка вимірює ймовірність того, що два предмети купуються разом в одній операції, такі як хліб та масло. Впевненість - це показник, який визначає ймовірність придбання двох предметів один за одним, але не разом, наприклад, антивірусне програмне забезпечення для ноутбуків та комп’ютерів.
Мінімальна порогова підтримка та мінімальні порогові значення довіри передбачаються для обрізання транзакцій та з'ясування найбільш часто зустрічаються елементів.
Реалізація за допомогою WEKA Explorer
WEKA містить реалізацію Алгоритм Апріорі для вивчення правил асоціації. Apriori працює лише з двійковими атрибутами, категоріальними даними (номінальними даними), тому, якщо набір даних містить будь-які числові значення, спочатку перетворіть їх у номінальні.
Апріорі з’ясовує всі правила з мінімальним рівнем підтримки та впевненості.
Виконайте наведені нижче дії.
# 1) Підготуйте набір файлів Excel і назвіть його як “ apriori.csv '.
# два) Відкрийте WEKA Explorer і на вкладці Preprocess виберіть файл “apriori.csv”.
# 3) Тепер файл завантажується в Провідник WEKA.
# 4) Видаліть поле Транзакція, встановивши прапорець і натиснувши Видалити, як показано на малюнку нижче. Тепер збережіть файл як “aprioritest.arff”.
# 5) Перейдіть на вкладку Associate. Правила апріорі можна видобути звідси.
# 6) Натисніть Вибрати, щоб встановити параметри підтримки та впевненості. Тут можна встановити різні параметри:
- ' lowerBoundMinSupport ”Та“ upperBoundMinSupport ”, Це інтервал рівня підтримки, в якому буде працювати наш алгоритм.
- Дельта - збільшення опори. У цьому випадку 0,05 - це збільшення підтримки з 0,1 до 1.
- metricType може бути 'Довіра', 'Підйом', 'Важіль' та 'Переконання'. Це говорить нам, як ми класифікуємо правила асоціації. Як правило, вибирається впевненість.
- numRules повідомляє кількість правил асоціації, які слід видобути. За замовчуванням він встановлений як 10.
- значенняРівень зображує, яке значення має рівень довіри.
# 7) У текстовому полі поруч із кнопкою вибору відображається “ Apriori-N-10-T-0-C-0.9-D 0,05-U1,0-M0,1-S-1,0-c-1 ”, Де зображені узагальнені правила, встановлені для алгоритму на вкладці налаштувань.
# 8) Клацніть на кнопку Пуск. Правила асоціації генеруються на правій панелі. Ця панель складається з 2 розділів. Перший - це алгоритм, набір даних, вибраний для запуску. У другій частині наведено інформацію про Apriori.
Давайте зрозуміємо інформацію про запуск на правій панелі:
- Схема використовувала нас Апріорі.
- Екземпляри та атрибути: Він має 6 екземплярів та 4 атрибути.
- Мінімальна підтримка та мінімальна впевненість - 0,4 та 0,9 відповідно. З 6 екземплярів, 2 екземпляри знайдені з мінімальною підтримкою,
- Кількість циклів, виконаних для правила асоціації гірничих робіт, становить 12.
- Створено великі набори елементів 3: L (1), L (2), L (3), але вони не класифікуються, оскільки їх розміри складають відповідно 7, 11 та 5.
- Знайдені правила класифікуються. Тлумачення цих правил полягає в наступному:
- Масло Т 4 => Пиво F 4: означає, що з 6, 4 випадків показано, що для вершкового масла істина, пиво є помилковим. Це дає міцну асоціацію. Рівень довіри 0,1.
Вихідні дані
Правила асоціації можуть бути вироблені за допомогою WEKA Explorer з Apriori Algorithm. Цей алгоритм може бути застосований до всіх типів наборів даних, доступних у каталозі WEKA, а також до інших наборів даних, створених користувачем. Підтримку, впевненість та інші параметри можна встановити за допомогою вікна налаштування алгоритму.
Алгоритм K-засобів за допомогою WEKA Explorer
Давайте подивимося, як реалізувати алгоритм K-засоби для кластеризації за допомогою WEKA Explorer.
Що таке кластерний аналіз
Алгоритми кластеризації - це некеровані алгоритми навчання, що використовуються для створення груп даних зі схожими характеристиками. Він об'єднує об'єкти зі схожістю у групи та підгрупи, що призводить до розділення наборів даних. Кластерний аналіз - це процес порціонування наборів даних на підмножини. Ці підмножини називаються кластерами, а сукупність кластерів називається кластеризацією.
Кластерний аналіз використовується у багатьох додатках, таких як розпізнавання зображень, розпізнавання зразків, веб-пошук та безпека, в бізнес-аналітиці, наприклад, у групуванні клієнтів із подібними уподобаннями.
Що таке K-означає кластеризація
K означає, що кластеризація - це найпростіший алгоритм кластеризації. В алгоритмі K-кластеризації набір даних розділений на K-кластери. Цільова функція використовується для пошуку якості розділів, щоб подібні об'єкти були в одному кластері, а різнорідні об'єкти в інших групах.
У цьому методі виявлено, що центроїд кластера представляє кластер. Центроїд приймається центром скупчення, який обчислюється як середнє значення точок всередині скупчення. Тепер якість кластеризації визначається шляхом вимірювання евклідової відстані між точкою та центром. Ця відстань повинна бути максимальною.
Як працює алгоритм кластеризації K-Mean
Крок 1: Виберіть значення K, де K - кількість кластерів.
Крок No2: Повторіть кожну точку і призначте скупчення, що має найближчий центр до неї. Коли кожен елемент повторюється, тоді обчислюють центроїд усіх кластерів.
Крок No3: Ітераціюйте кожен елемент із набору даних і обчисліть евклідову відстань між точкою та центроїдом кожного кластера. Якщо в кластері є якась найближча до неї точка, перепризначте цю точку найближчому кластеру, і виконавши це для всіх точок набору даних, знову обчисліть центроїд кожного кластера.
Крок No4: Виконуйте крок 3, доки між двома послідовними ітераціями не відбудеться нового призначення.
K-означає реалізацію кластеризації за допомогою WEKA
Етапи реалізації за допомогою Weka такі:
# 1) Відкрийте WEKA Explorer і клацніть на Відкрити файл на вкладці Preprocess. Виберіть набір даних “vote.arff”.
# два) Перейдіть на вкладку «Кластер» і натисніть кнопку «Вибрати». Виберіть метод кластеризації як “SimpleKMeans”.
# 3) Виберіть Налаштування, а потім встановіть наступні поля:
- Функція відстані як евклідова
- Кількість кластерів як 6. При збільшенні кількості кластерів сума похибки у квадраті зменшиться.
- Насіння як 10. оф
Клацніть на Ok і запустіть алгоритм.
# 4) Клацніть на Пуск на лівій панелі. Результати алгоритму відображаються на білому екрані. Давайте проаналізуємо інформацію про пробіг:
- Схема, відношення, екземпляри та атрибути описують властивість набору даних та використовуваний метод кластеризації. У цьому випадку набір даних voice.arff має 435 екземплярів та 13 атрибутів.
- У кластері Kmeans кількість ітерацій дорівнює 5.
- Сума похибки у квадраті дорівнює 1098,0. Ця помилка зменшиться із збільшенням кількості кластерів.
- П’ять кінцевих скупчень з центроїдами представлені у вигляді таблиці. У нашому випадку Центроїди скупчень становлять 168,0, 47,0, 37,0, 122,0,33,0 і 28,0.
- Кластерні екземпляри представляють кількість і відсоток загальної кількості екземплярів, що потрапляють у кластер.
# 5) Виберіть “Класи для оцінки кластерів” і натисніть на Пуск.
Алгоритм призначить кластеру мітку класу. Кластер 0 - республіканський, а кластер 3 - демократ. Неправильно кластерований екземпляр становить 39,77%, що можна зменшити, ігноруючи неважливі атрибути.
# 6) Щоб ігнорувати неважливі атрибути. Натисніть кнопку «Ігнорувати атрибути» та виберіть атрибути, які потрібно видалити.
# 7) Використовуйте вкладку «Візуалізація», щоб візуалізувати результат алгоритму кластеризації. Перейдіть на вкладку та клацніть на будь-яке поле. Перемістіть джиттер на максимум.
- Вісь X і вісь Y представляють атрибут.
- Блакитний колір представляє ярлик демократа, а червоний - республіканський.
- Джиттер використовується для перегляду кластерів.
- Клацніть поле в правій частині вікна, щоб змінити атрибут координати x та переглянути кластеризацію щодо інших атрибутів.
Вихідні дані
K означає, що кластеризація - це простий метод кластерного аналізу. Кількість кластерів можна встановити за допомогою вкладки налаштувань. Центроїд кожного кластера обчислюється як середнє значення всіх точок кластерів. Зі збільшенням кількості кластерів сума квадратних помилок зменшується. Об'єкти всередині кластера мають подібні характеристики та властивості. Кластери представляють мітки класів.
Впровадити візуалізацію даних за допомогою WEKA
Візуалізація даних
Метод подання даних через графіки та графіки з метою чіткого розуміння даних - це візуалізація даних.
Існує багато способів представити дані. Деякі з них такі:
як зробити купу в Java
# 1) Піксельна орієнтована візуалізація: Тут колір пікселя представляє значення розмірності. Колір пікселя представляє відповідні значення.
# 2) Геометричне зображення: Багатовимірні набори даних представлені на 2D, 3D та 4D графіках розсіювання.
# 3) Візуалізація на основі іконок: Дані представлені з використанням облич та фігур Черноффа. Обличчя Чернова використовують здатність людського розуму розпізнавати характеристики обличчя та відмінності між ними. На фігурі використовується 5 фігур на фігурі для представлення багатовимірних даних.
# 4) Ієрархічна візуалізація даних: Набори даних представлені за допомогою деревних карт. Він представляє ієрархічні дані як набір вкладених трикутників.
Візуалізація даних за допомогою WEKA Explorer
Візуалізація даних за допомогою WEKA здійснюється на наборі даних IRIS.arff.
Задіяні наступні кроки:
# 1) Перейдіть на вкладку Preprocess і відкрийте набір даних IRIS.arff.
# два) Набір даних має 4 атрибути та 1 мітку класу. Атрибутами цього набору даних є:
- Довжина сепаратора: Тип -числовий
- Ширина Сепала: Тип - числовий
- Довжина пелюстки: Тип-числовий
- Ширина пелюстки: Тип-числовий
- Клас: Тип-іменний
# 3) Щоб візуалізувати набір даних, перейдіть на вкладку Візуалізація. На вкладці показана матриця графіків атрибутів. Атрибути набору даних позначаються на осі x та осі y під час побудови екземплярів. Поле з атрибутом осі х та атрибутом осі у можна збільшити.
# 4) Клацніть на поле сюжету, щоб збільшити. Наприклад, x: довжина пелюстки та y: ширина пелюстки. Етикетки класів представлені різними кольорами.
- Етикетка класу - Iris-setosa: синій колір
- Етикетка класу - Iris-versicolor: червоний
- Етикетка класу-Ірис-вірджиніка-зелений
Ці кольори можна змінювати. Щоб змінити колір, натисніть на ярлик класу внизу, з’явиться кольорове вікно.
# 5) Клацніть на екземпляр, представлений символом «x» у графіку. Він надасть деталі екземпляра. Наприклад:
- Номер екземпляра: 91
- Довжина окремо: 5.5
- Ширина Сепала: 2.6
- Довжина пелюстки: 4.4
- Ширина пелюстки: 1.2
- Клас: Ірис-кольоровий
Деякі пункти сюжету виглядають темнішими, ніж інші. Ці точки представляють 2 або більше екземплярів з однаковою міткою класу та однаковим значенням атрибутів, нанесених на графік, таких як ширина пелюстки та довжина пелюстки.
Малюнок нижче представляє точку з інформацією про 2 екземпляри.
# 6) Атрибути осей X та Y можна змінити на правій панелі графіку Visualize. Користувач може переглядати різні графіки.
# 7) Джиттер використовується для додання випадковості сюжету. Іноді точки перекриваються. При джиттері темні плями представляють кілька випадків.
# 8) Щоб отримати чіткіший вигляд набору даних та видалити невідомі значення, користувач може вибрати примірник зі спадного меню. Клацніть на спадне меню 'вибрати екземпляр'. Виберіть “Прямокутник”. Завдяки цьому користувач зможе виділяти точки на графіку, будуючи прямокутник.
# 9) Клацніть на «Надіслати». Будуть відображатися лише вибрані точки набору даних, а інші точки будуть виключені з графіку.
На малюнку нижче показано точки з обраної прямокутної форми. Сюжет представляє точки лише з 3 мітками класів. Користувач може натиснути «Зберегти», щоб зберегти набір даних, або «Скинути», щоб вибрати інший екземпляр. Набір даних буде збережено в окремому файлі .ARFF.
Вихід:
Візуалізація даних за допомогою WEKA спрощується за допомогою графічного графіку. Користувач може переглянути будь-який рівень деталізації. Атрибути побудовані на осі X та осі Y, а екземпляри - на осях X та Y. Деякі точки представляють кілька випадків, які представлені точками з темним кольором.
Висновок
WEKA - це ефективний інструмент інтелектуального аналізу даних для виконання багатьох завдань з інтелектуального аналізу даних, а також для експериментів з новими методами над наборами даних. WEKA була розроблена кафедрою комп'ютерних наук Університету Ваікато в Новій Зеландії.
Сучасний світ переповнений даними, починаючи від покупок у супермаркеті і закінчуючи камерами безпеки у нашому домі. Видобуток даних використовує ці необроблені дані, перетворює їх на інформацію для прогнозування. WEKA за допомогою алгоритму Apriori допомагає в правилах асоціації майнінгу в наборі даних. Apriori - це частий алгоритм видобутку шаблонів, який підраховує кількість випадків набору елементів у транзакції.
Кластерний аналіз - це метод виявлення кластерів даних, що представляють подібні характеристики. WEKA пропонує безліч алгоритмів для кластерного аналізу, з яких найпростіші засоби широко використовуються.
Візуалізація даних у WEKA може виконуватися на всіх наборах даних у каталозі WEKA. Необроблений набір даних можна переглядати, а також інші результуючі набори даних інших алгоритмів, таких як класифікація, кластеризація та асоціація, можна візуалізувати за допомогою WEKA.
=> Відвідайте тут ексклюзивну серію машинного навчання
Рекомендована література
- Підручник Weka - Як завантажити, встановити та використовувати інструмент Weka
- Набір даних WEKA, класифікатор та алгоритм J48 для дерева рішень
- 15 НАЙКРАЩИХ засобів та програмного забезпечення для візуалізації даних у 2021 році
- Підручник з D3.js - Рамка візуалізації даних для початківців
- Підручник з візуалізації даних D3.js - Фігури, Графік, Анімація
- 7 принципів тестування програмного забезпечення: Кластеризація дефектів і принцип Парето
- Видобуток даних: процес, методи та основні проблеми аналізу даних
- Методи видобутку даних: алгоритм, методи та найпопулярніші засоби видобування даних