data mining techniques
Цей поглиблений посібник з методів видобування даних пояснює алгоритми, засоби видобування даних та методи вилучення корисних даних:
У цьому Навчальні посібники з поглибленого аналізу даних для всіх , ми вивчили все про видобуток даних у нашому попередньому підручнику.
У цьому підручнику ми дізнаємося про різні техніки, що використовуються для вилучення даних. Оскільки ми знаємо, що видобуток даних - це концепція вилучення корисної інформації з величезної кількості даних, деякі методи та методи застосовуються до великих наборів даних для вилучення корисної інформації.
Ці методи в основному мають форму методів та алгоритмів, що застосовуються до наборів даних. Деякі з методів видобутку даних включають Видобуток частих шаблонів, асоціацій та кореляцій, класифікацій, кластеризації, виявлення відхилень та деяких передових методів, таких як статистичний, візуальний та аудіовидобуток даних.
Як правило, реляційні бази даних, транзакційні бази даних та сховища даних використовуються для методів видобутку даних. Однак існують також деякі передові методи видобутку складних даних, такі як часові ряди, символьні послідовності та біологічні послідовні дані.
Що ви дізнаєтесь:
- Призначення методів видобутку даних
- Перелік методів вилучення даних
- Найпопулярніші алгоритми видобутку даних
- Методи вилучення даних
- Найкращі інструменти для видобутку даних
- Висновок
- Рекомендована література
Призначення методів видобутку даних
Оскільки щодня зберігається величезна кількість даних, підприємства зараз зацікавлені з’ясувати з них тенденції. Методи вилучення даних допомагають перетворити необроблені дані в корисні знання. Для видобутку величезних обсягів даних потрібне програмне забезпечення, оскільки людині неможливо вручну пройти великий обсяг даних.
Програмне забезпечення для аналізу даних аналізує взаємозв'язок між різними елементами у великих базах даних, що може допомогти у процесі прийняття рішень, дізнатись більше про клієнтів, розробити стратегії маркетингу, збільшити продажі та зменшити витрати.
Перелік методів вилучення даних
Техніка обробки даних, яку слід застосувати, залежить від перспективи нашого аналізу даних.
Тож давайте обговоримо різні прийоми того, як витяг даних можна виконувати різними способами:
# 1) Частий аналіз шаблонів / аналіз асоціацій
Цей тип техніки обробки даних шукає повторювані взаємозв'язки в даному наборі даних. Він буде шукати цікаві асоціації та взаємозв'язки між різними елементами бази даних та виявляти закономірності.
Приклад, такого роду, було б «Аналіз кошика для покупок»: з’ясування «які товари клієнти можуть придбати разом у магазині?» такі як хліб та масло.
Застосування: Проектування розміщення продукції на полицях магазинів, маркетинг, перехресний продаж продуктів.
Шаблони можуть бути представлені у формі правил асоціації. Правило асоціації говорить, що підтримка та впевненість є параметрами для з'ясування корисності пов'язаних предметів. Операції, в яких обидва предмети були придбані разом за один раз, відомі як підтримка.
Операції, в яких клієнти купували обидва предмети, але один за одним, - це впевненість. Видобутий зразок буде вважатися цікавим, якщо він має мінімальний поріг підтримки і мінімальний поріг довіри значення. Порогові значення визначаються експертами домену.
Хліб => масло (підтримка = 2%, впевненість-60%)
Наведене вище твердження є прикладом правила асоціації. Це означає, що є 2% операція, яка купує хліб і масло разом, і є 60% клієнтів, які купують хліб, а також масло.
Етапи впровадження аналізу асоціацій:
- Пошук частих наборів предметів. Набір предметів означає набір предметів. Набір предметів, що містить k елементів, є k-набором предметів. Частота набору елементів - це кількість транзакцій, що містять набір елементів.
- Створення сильних правил асоціації з частих наборів предметів. Під сильними правилами асоціації ми маємо на увазі, що мінімальна порогова підтримка та впевненість досягнуті.
Існують різні часті методи видобутку наборів предметів, такі як алгоритм Apriori, підхід до зростання шаблону та видобуток з використанням вертикального формату даних. Цей прийом широко відомий як аналіз ринкових кошиків.
# 2) Кореляційний аналіз
Кореляційний аналіз - це лише розширення правил асоціації. Іноді параметри підтримки та впевненості все ще можуть давати користувачам нецікаві моделі.
Прикладом, що підтверджує вищезазначене твердження, може бути: з 1000 проаналізованих операцій 600 містили лише хліб, тоді як 750 містили вершкове масло, а 400 містили як хліб, так і масло. Припустимо, що мінімальна підтримка запуску правил асоціації становить 30%, а мінімальна довіра - 60%.
Значення підтримки 400/1000 = 40% та значення довіри = 400/600 = 66% відповідає пороговому значенню. Однак ми бачимо, що ймовірність придбання вершкового масла становить 75%, що більше 66%. Це означає, що хліб і масло негативно корелюють, оскільки придбання одного призведе до зменшення придбання іншого. Результати оманливі.
З наведеного прикладу підтримка та впевненість доповнюються ще одним показником цікавості, тобто кореляційним аналізом, який допоможе у видобутку цікавих моделей.
A => B (підтримка, впевненість, кореляція).
Правило кореляції вимірюється підтримкою, впевненістю та кореляцією між наборами предметів A і B. Кореляція вимірюється ліфтом та хі-квадратом.
як встановити файл .bin
(i) Підйом: Як сказано в самому слові, Lift представляє ступінь, до якої наявність одного набору елементів піднімає появу інших наборів предметів.
Підйом між появою A та B можна виміряти за допомогою:
Підйом (A, B) = P (A U B) / P (A). P (B).
Якщо це<1, then A and B are negatively correlated.
Якщо це> 1. Тоді A і B позитивно корелюють, що означає, що поява одного передбачає виникнення іншого.
Якщо воно = 1, то між ними немає кореляції.
(ii) Квадрат хі: Це ще одна міра кореляції. Він вимірює різницю в квадраті між спостережуваним та очікуваним значенням для слота (пара A і B), поділеним на очікуване значення.
Якщо воно> 1, то це негативно корелює.
# 3) Класифікація
Класифікація допомагає у побудові моделей важливих класів даних. Для прогнозування міток класів створюється модель або класифікатор. Мітки - це визначені класи з дискретними значеннями, такими як «так» або «ні», «безпечно» або «ризиковано». Це тип контрольованого навчання, оскільки клас лейбла вже відомий.
Класифікація даних - це двоетапний процес:
- Крок навчання: Тут побудована модель. Попередньо визначений алгоритм застосовується до даних для аналізу за допомогою наданої мітки класу та будуються правила класифікації.
- Крок класифікації: Модель використовується для прогнозування міток класів для даних даних. Точність правил класифікації оцінюється тестовими даними, які, якщо вони визнані точними, використовуються для класифікації нових кортежів даних.
Елементи в наборі предметів будуть призначені цільовим категоріям для прогнозування функцій на рівні мітки класу.
Застосування: Банки для ідентифікації заявників позик як осіб із низьким, середнім або високим ризиком, підприємства, що розробляють маркетингові кампанії на основі класифікації за віковою групою. `
# 4) Індукція дерева рішень
Метод індукції дерев рішень підпадає під класифікаційний аналіз. Дерево рішень - це деревоподібна структура, яка легко зрозуміла, проста та швидка. При цьому кожен нелистовий вузол представляє тест на атрибут, а кожна гілка - результат тесту, а листовий вузол - мітку класу.
Значення атрибутів у кортежі перевіряються на основі дерева рішень від кореня до листового вузла. Дерева рішень популярні, оскільки для цього не потрібні знання в області. Вони можуть представляти багатовимірні дані. Дерева рішень можна легко перетворити на правила класифікації.
Застосування: Дерева рішень будуються в медицині, виробництві, виробництві, астрономії тощо. Приклад можна побачити нижче:
№5) Класифікація Байєса
Баєсова класифікація - ще один метод класифікаційного аналізу. Класифікатори Байєса передбачають ймовірність того, що даний кортеж належить до певного класу. Він базується на теоремі Байєса, яка базується на теорії ймовірності та рішення.
Класифікація Байєса працює над задньою ймовірністю та попередньою ймовірністю для процесу прийняття рішень. За задньою ймовірністю гіпотеза складається з поданої інформації, тобто значення атрибутів відомі, тоді як для попередньої ймовірності гіпотези подаються незалежно від значень атрибутів.
# 6) Кластерний аналіз
Це техніка розподілу набору даних на кластери або групи об’єктів. Кластеризація здійснюється за допомогою алгоритмів. Це тип навчання без нагляду, оскільки інформація про ярлик невідома. Методи кластеризації ідентифікують дані, подібні або відмінні один від одного, і проводиться аналіз характеристик.
Кластерний аналіз може бути використаний як попередній крок для застосування різних інших алгоритмів, таких як характеристика, вибір підмножини атрибутів тощо. Кластерний аналіз також може бути використаний для виявлення вибухів, таких як високі покупки в операціях з кредитними картками.
Програми: Розпізнавання зображень, веб-пошук та безпека.
# 7) Виявлення сторонніх факторів
Процес пошуку об’єктів даних, які мають виняткову поведінку з-поміж інших об’єктів, називається виявленням вибуху. Виявлення чужорідних ситуацій та кластерний аналіз пов'язані між собою. Помічені методи класифікуються на статистичні, наближені, кластеризовані та класифіковані.
Існують різні типи відхилень, деякі з них:
- Глобальне відхилення: Об'єкт даних суттєво відхилявся від решти набору даних.
- Контекстне відхилення: Це залежить від певних факторів, таких як день, час та місцезнаходження. Якщо об'єкт даних суттєво відхиляється у зв'язку з контекстом.
- Колективне відхилення: Коли група об'єктів даних відрізняється від усього набору даних.
Застосування: Виявлення ризиків шахрайства з кредитними картками, виявлення новинок тощо.
# 8) Послідовні візерунки
Тенденція або деякі послідовні закономірності розпізнаються в цьому типі аналізу даних. Розуміння поведінки покупців та послідовних моделей використовуються магазинами для викладення своєї продукції на полицях.
Застосування: Приклад електронної комерції, коли коли ви купуєте товар А, він показує, що товар В часто купують разом із товаром А, дивлячись на минулу історію покупок.
# 9) Регресійний аналіз
Цей тип аналізу контролюється і визначає, які набори елементів серед різних взаємозв’язків пов’язані чи незалежні один від одного. Він може прогнозувати продажі, прибуток, температуру, прогнозувати поведінку людини тощо. Він має значення набору даних, яке вже відомо.
Коли надається вхід, алгоритм регресії порівнює вхідне та очікуване значення, і похибка обчислюється для отримання точного результату.
Застосування: Порівняння спроб маркетингу та розробки продуктів.
Найпопулярніші алгоритми видобутку даних
Методи видобутку даних застосовуються через алгоритми, що стоять за ними. Ці алгоритми працюють на програмному забезпеченні для вилучення даних і застосовуються на основі бізнес-потреб.
Деякі алгоритми, які широко використовуються організаціями для аналізу наборів даних, визначені нижче:
- K-засоби: Це популярна техніка кластерного аналізу, коли група подібних елементів об’єднується в кластери.
- Алгоритм Апріорі: Це часта техніка видобутку наборів предметів, і до неї в транзакційних базах даних застосовуються правила асоціації. Він виявить часті набори предметів та висвітлить загальні тенденції.
- K Найближчий сусід: Цей метод використовується для класифікаційного та регресійного аналізу. Найближчий сусід - ледаче навчання, де він зберігає дані про навчання, а коли надходять нові немарковані дані, він класифікує вхідні дані.
- Кораблі компанії Bayes: Це група простих імовірнісних алгоритмів класифікації, які припускають, що ознаки кожного об’єкта даних не залежать від інших. Це додаток теореми Байєса.
- AdaBoost: Це мета-алгоритм машинного навчання, який використовується для підвищення продуктивності. Adaboost чутливий до галасливих даних та викидів.
Методи вилучення даних
Деякі вдосконалені методи видобутку даних для обробки складних типів даних пояснюються нижче.
Дані в сучасному світі різноманітні, від простих до складних. Для видобутку складних типів даних, таких як часові ряди, багатовимірні, просторові та мультимедійні дані, необхідні вдосконалені алгоритми та методи.
Деякі з них описані нижче:
- Клацніть: Це був перший метод кластеризації, який знайшов кластери в багатовимірному підпросторі.
- P3C: Це добре відомий метод кластеризації для багатовимірних даних від помірного до високого.
- ОЗЕРО: Це метод, заснований на k-середніх показниках, спрямований на кластеризацію даних середньої та великої розмірності. Алгоритм розділяє дані на k неперервний набір елементів, видаляючи можливі викиди.
- ЗАВИВКА: Це алгоритм кластеризації кореляцій, він визначає як лінійні, так і нелінійні кореляції.
Найкращі інструменти для видобутку даних
Data Mining Tools - це програмне забезпечення, що використовується для видобутку даних. Інструменти запускають алгоритми на сервері. Ці інструменти доступні на ринку як Open Source, Вільне програмне забезпечення та Ліцензійна версія.
Деякі із засобів вилучення даних включають:
# 1) RapidMiner
RapidMiner - це програмна платформа з відкритим кодом для команд аналітиків, яка об’єднує підготовку даних, машинне навчання та розгортання прогнозних моделей. Цей інструмент використовується для аналізу аналізу даних та створення моделей даних. Він має великі набори для класифікації, кластеризації, видобутку правил асоціацій та алгоритмів регресії.
# 2) Помаранчевий
Це інструмент з відкритим кодом, що містить пакет візуалізації та аналізу даних. Апельсин можна імпортувати в будь-яке робоче середовище python. Він добре підходить для нових дослідників та невеликих проектів.
# 3) МОВА
KEEL (Вилучення знань на основі еволюційного навчання) є відкритим кодом ( GPLv3 ) Програмний інструмент Java, який може бути використаний для великої кількості різних завдань з пошуку даних знань.
# 4) SPSS
IBM SPSS Modeler - це програма для аналізу даних та аналізу тексту від IBM. Він використовується для побудови прогнозних моделей та проведення інших аналітичних завдань.
No5) ПІДПРИЄМСТВО
Це безкоштовний інструмент із відкритим кодом, що містить пакет очищення та аналізу даних, спеціалізовані алгоритми в області аналізу настроїв та аналізу соціальних мереж. KNIME може інтегрувати дані з різних джерел в один і той же аналіз. Він має інтерфейс з програмуванням на Java, Python та R.
Важливе питання: Чим класифікація відрізняється від прогнозування?
безкоштовно завантажити програму YouTube в mp3 конвертер
Класифікація - це групування даних. Прикладом класифікації є групування за віковою групою, станом здоров'я тощо. Тоді як прогнозування дає результат, використовуючи класифіковані дані.
Приклад Прогностичного аналізу передбачає інтереси на основі вікової групи та лікування захворювання. Прогнозування також відоме як Оцінка для неперервних значень.
Важливий термін: Інтелектуальний видобуток даних
Інтелектуальний видобуток даних проводиться для прогнозування або прогнозування певних тенденцій даних за допомогою бізнес-аналітики та інших даних. Це допомагає компаніям мати кращу аналітику та приймати кращі рішення. Прогностична аналітика часто поєднується з інтелектуальним аналізом даних.
Інтелектуальний аналіз даних знаходить відповідні дані для аналізу. Прогностична аналітика використовує дані для прогнозування результату.
Висновок
У цьому підручнику ми обговорили різні методи видобутку даних, які можуть допомогти організаціям та компаніям знайти найбільш корисну та актуальну інформацію. Ця інформація використовується для створення моделей, які прогнозуватимуть поведінку споживачів для бізнесу, який буде діяти відповідно до неї.
Читаючи всю вищезазначену інформацію про методи видобутку даних, можна ще краще визначити її достовірність та здійсненність. Методи вилучення даних включають роботу з даними, переформатування даних, реструктуризацію даних. Формат необхідної інформації базується на техніці та аналізі, який потрібно зробити.
Нарешті, всі методи, методи та системи інтелектуального аналізу даних допомагають відкрити нові творчі інновації.
НАЗАД Підручник | НАСТУПНИЙ підручник
Рекомендована література
- Видобуток даних: процес, методи та основні проблеми аналізу даних
- 10 найкращих інструментів моделювання даних для управління складними проектами
- 15 найкращих безкоштовних інструментів для видобутку даних: найповніший список
- 10+ найкращих інструментів збору даних із стратегіями збору даних
- 10 найкращих інструментів проектування баз даних для побудови складних моделей даних
- 10+ найкращих інструментів управління даними, щоб задовольнити ваші потреби у даних у 2021 році
- Видобуток даних проти машинного навчання проти штучного інтелекту проти глибокого навчання
- 14 найкращих інструментів управління тестовими даними у 2021 році