complete guide big data analytics
Це вичерпний посібник з аналізу даних великих даних з його використаннями, архітектурою, прикладами та порівнянням з Big Data і Data Science:
Аналітика великих даних набула популярності, оскільки такі корпорації, як Facebook, Google і Amazon, створили власні нові парадигми розподіленої обробки даних та аналітики, щоб зрозуміти схильність своїх клієнтів до вилучення вартості з великих даних.
У цьому посібнику ми пояснюємо аналітику великих даних та порівнюємо її з великими даними та наукою даних. Ми розглянемо необхідні атрибути, які підприємства повинні мати у своїй стратегії великих даних та методології, яка працює. Ми також згадаємо останні тенденції та деякі випадки використання аналізу даних.
Як показано на зображенні нижче, Analytics вимагає використання ІТ-навичок, ділових навичок та науки про дані. Аналіз великих даних займає головне місце у використанні значень з великих даних, і це допомагає отримати статистичні дані для організації.
(зображення джерело )
Що ви дізнаєтесь:
- Що таке аналіз великих даних
- Висновок
Що таке аналіз великих даних
Big Data Analytics займається використанням колекції статистичних методів, інструментів та процедур аналітики для Big Data.
Рекомендовано Читання => Вступ до великих даних
Саме аналітика допомагає витягати цінні зразки та значущі ідеї з великих даних для підтримки прийняття рішень на основі даних. Саме завдяки появі нових джерел даних, таких як соціальні медіа та дані IoT, великі дані та аналітика стали популярними.
Ця тенденція породжує область практики та досліджень під назвою «наука про дані», яка охоплює техніки, інструменти, технології та процеси для видобування даних, очищення, моделювання та візуалізації.
Big Data проти Big Data Analytics проти Data Science
ДО порівняння між великими даними, наукою даних та аналітикою великих даних можна зрозуміти з таблиці нижче.
Основа | Великі дані | Наука про дані | Аналіз великих даних |
---|---|---|---|
Інструменти та технології | Екосистема Hadoop, CDH, Cassandra, MongoDB, Java, Python, Talend, SQL, Rapid Miner | R, Python, Jupyter, Data Science Workbench, IBM SPSS, Tableau | Іскра, Шторм, В'язання, Обгортка даних, Lumify, HPCC, Qubole, Microsoft HDInsight |
Робочі ролі та навички | Обслуговування інфраструктури зберігання, обробка даних та знання про Hadoop та її інтеграція з іншими інструментами. | Перетворення даних, інженерія даних, переміщення даних, моделювання даних та візуалізація | BI та Advanced Analytics, статистика, моделювання даних та машинне навчання, математичні навички, спілкування, консалтинг. |
Позначення | Архітектор великих даних Розробник великих даних Інженер великих даних | Вчений даних Інженер машинного навчання | Аналітик великих даних Бізнес-аналітик Інженер з бізнес-аналітики Фахівець з бізнес-аналітики Розробник візуалізації даних Менеджер аналітики |
Прибл. Середньорічна зарплата в доларах США | 100 000 | 90 000 | 70 000 |
Пропоноване читання = >> Data Science проти комп'ютерних наук
Що має мати кожна стратегія аналізу великих даних
Чітко визначена, інтегрована та всебічна стратегія сприяє та підтримує прийняття цінних рішень на основі даних в організації. У цьому розділі ми перерахували найбільш важливі кроки, які необхідно враховувати при визначенні стратегії аналізу великих даних.
Крок 1: Оцінка
Оцінка, вже узгоджена з бізнес-цілями, вимагає залучення ключових зацікавлених сторін, створення команди членів з правильним набором навичок, оцінки політики, людей, процесів, а також технологій та даних. Якщо потрібно, до цього процесу можна залучити замовників, які оцінюються.
Крок 2: Розміщення пріоритетів
Після оцінки потрібно вивести випадки використання, визначити їх пріоритетами, використовуючи прогностичну аналітику великих даних, рецептурну аналітику та когнітивну аналітику. Ви також можете скористатися таким інструментом, як матриця пріоритетів, і додатково фільтрувати випадки використання за допомогою зворотного зв'язку та введення ключових зацікавлених сторін.
Крок 3: Дорожня карта
На цьому кроці потрібно створити обмежену часом дорожню карту та опублікувати її для всіх. Дорожня карта повинна включати всі деталі щодо складності, коштів, невід'ємних переваг випадків використання та нанесених на карту проектів.
Крок 4: Управління змінами
Впровадження управління змінами вимагає управління доступністю даних, цілісністю, безпекою та зручністю використання. Ефективна програма управління змінами, використовуючи будь-яке існуюче управління даними, стимулює діяльність та членів на основі постійного моніторингу.
Крок 5: Правильний набір навичок
Визначення правильного набору навичок має вирішальне значення для успіху організації на тлі сучасних тенденцій у галузі. Тому потрібно слідувати правильним лідерам і запроваджувати освітні програми для навчання критично важливих зацікавлених сторін.
Крок 6: Надійність, масштабованість та безпека
Правильний підхід та ефективна стратегія аналізу великих даних роблять аналітичний процес надійним, з ефективним використанням інтерпретованих моделей, що включають принципи науки про дані. Стратегія аналізу великих даних повинна також включати аспекти безпеки від самого початку для надійного та тісно інтегрованого конвеєру аналітики.
Конвеєр даних та процес для аналізу даних
Плануючи конвеєр аналізу даних, слід врахувати три основні аспекти. Вони такі:
- Вхідні дані: Формат даних і вибір технології для обробки, вона базується на природі даних, тобто. чи дані є часовими рядами та якістю.
- Вихід: Вибір роз’ємів , звіти та візуалізація залежить від технічного досвіду кінцевих користувачів та їх вимог щодо споживання даних.
- Об'єм: Розчини для масштабування плануються на основі обсягу даних, щоб уникнути перевантаження системи обробки великих даних.
Тепер обговоримо типовий процес та етапи створення конвеєру аналізу великих даних.
Етап 1: Забір даних
Введення даних - це перший і найважливіший крок у конвеєрі даних. Він розглядає три аспекти даних.
- Джерело даних - Це важливо щодо вибору архітектури конвеєру великих даних.
- Структура даних - Серіалізація є ключем до підтримки однорідної структури по трубопроводу.
- Чистота даних - Аналітика така ж хороша, як і дані, без таких проблем, як відсутність значень, відхилення тощо.
Етап 2: ETL / Складування
Наступним важливим модулем є засоби зберігання даних для виконання ETL (Extract Transform Load). Зберігання даних у відповідному центрі обробки даних залежить від,
- Апаратне забезпечення
- Експертиза управління
- Бюджет
(зображення джерело )
Деякі перевірені часом інструменти ETL / Складування в центрах обробки даних:
- Apache Hadoop
- Вулик апачів
- Паркет Apache
- Механізм запитів Presto
Такі хмарні компанії, як Google, AWS, Microsoft Azure, надають ці інструменти на основі оплати та заощаджують початкові капітальні витрати.
Етап 3: Аналітика та візуалізація
Беручи до уваги обмеження Hadoop на швидкі запити, потрібно використовувати аналітичні платформи та інструменти, які дозволяють здійснювати швидкі та спеціальні запити з необхідною візуалізацією результатів.
>> Рекомендована література: Інструменти великих даних
Етап 4: Моніторинг
Після створення інфраструктури для прийому, зберігання та аналітики за допомогою інструментів візуалізації, наступним кроком є наявність ІТ-засобів та інструментів моніторингу даних для моніторингу. До них належать:
- Використання процесора або графічного процесора
- Споживання пам'яті та ресурсів
- Мережі
Деякі інструменти, які варто розглянути:
- Собака даних
- Графана
Інструменти моніторингу незамінні в конвеєрі аналізу великих даних і допомагають контролювати якість та цілісність конвеєра.
Архітектура аналізу великих даних
Наведена нижче діаграма архітектури показує, як сучасні технології використовують як неструктуровані, так і структуровані джерела даних для обробки Hadoop і Map-Reduction, аналітичних систем в пам’яті та аналітики в реальному часі, щоб отримати комбіновані результати для операцій у реальному часі та прийняття рішень.
(зображення джерело )
Сучасні тенденції в аналітиці даних
У цьому розділі ми перерахували основні аспекти, на які слід звертати увагу при впровадженні або слідуванні тенденціям аналізу великих даних у галузі.
# 1) Джерела великих даних
Є насамперед три джерела великих даних. Вони перелічені нижче:
- Соціальні дані: Дані, отримані через використання соціальних мереж. Ці дані допомагають зрозуміти почуття і поведінка клієнтів і може бути корисним у маркетинговій аналітиці.
- Дані машини: Ці дані беруться з промислового обладнання та додатків за допомогою датчиків IoT. Це допомагає зрозуміти людей поведінки і дає уявлення про процесів .
- Дані транзакцій: Він генерується в результаті як офлайн, так і онлайнової діяльності користувачів щодо платіжних доручень, рахунків-фактур, квитанцій тощо. Більшість таких потреб потребують даних попередня обробка і прибирання перш ніж він може бути використаний для аналітики.
# 2) Зберігання даних SQL / NoSQL
У порівнянні з традиційними базами даних або СУБД, бази даних NoSQL виявляються кращими для завдань, необхідних для аналізу великих даних.
Бази даних NoSQL можуть за своєю суттю досить добре обробляти неструктуровані дані і не обмежуються лише дорогими модифікаціями схеми, вертикальним масштабуванням та перешкодами властивостей ACID.
# 3) Прогностична аналітика
Predictive Analytics пропонує індивідуальну статистику, яка змушує організації створювати нові відповіді або покупки клієнтів та можливості перехресного продажу. Організації використовують прогнозовану аналітику для прогнозування окремих елементів на детальному рівні для прогнозування майбутніх результатів та запобігання потенційним проблемам. Це додатково поєднується з історичними даними та перетворюється на аналіз, що вимагає приписів.
Деякі галузі, в яких успішно використовується прогнозна аналітика великих даних, - це бізнес, захист дітей, клінічна підтримка рішень, прогнозування портфеля, прогнозування на економічному рівні та андеррайтинг.
# 4) Глибоке навчання
Великі дані надзвичайні для звичайних обчислень. Виявляється, традиційні техніки машинного навчання аналізу даних вирівнюються в продуктивності зі збільшенням різноманітності та обсягу даних.
Аналітика стикається з проблемами щодо варіацій формату, широко розподілених джерел вхідних даних, незбалансованих вхідних даних та швидких потокових даних, і алгоритми глибокого навчання досить ефективно справляються з такими проблемами.
Глибоке навчання знайшло своє ефективне використання в семантичній індексації, виконанні дискримінаційних завдань, семантичному зображенні та тегуванні відео, соціальному націлюванні, а також в ієрархічних багаторівневих підходах до навчання у сферах розпізнавання об’єктів, позначення даних, пошуку інформації та природної мови обробка.
# 5) Озера даних
Зберігання різних наборів даних у різних системах та їх поєднання для аналітики з традиційними підходами управління даними виявляються дорогими та майже нездійсненними. Тому організації роблять озера даних, які зберігають дані у вихідному форматі для аналізу, який можна здійснити.
На зображенні нижче показано приклад озера даних в архітектурі великих даних.
(зображення джерело )
Використання аналітики великих даних
Нижче ми перерахували декілька поширених випадків використання:
# 1) Аналітика клієнтів
Аналітика великих даних корисна для різних цілей, таких як мікромаркетинг, індивідуальний маркетинг, більш тонка сегментація та масове налаштування для клієнтів бізнесу. Підприємства можуть створювати стратегії персоналізації своїх продуктів та послуг відповідно до схильності споживачів до подальшого продажу або перехресного продажу подібного чи іншого асортименту товарів та послуг.
# 2) Аналіз операцій
Операційна аналітика допомагає поліпшити загальне прийняття рішень та результати бізнесу, використовуючи наявні дані та збагачуючи їх даними машини та IoT.
Наприклад, Аналітика великих даних в галузі охорони здоров’я дозволила зіткнутися з проблемами та новими можливостями, пов’язаними з оптимізацією витрат на охорону здоров’я, покращенням моніторингу клінічних випробувань, прогнозуванням та плануванням реакцій на епідемії захворювань, таких як COVID-19.
# 3) Запобігання шахрайству
Аналітика великих даних розглядається як потенціал для отримання величезної вигоди, допомагаючи передбачати та зменшувати спроби шахрайства, насамперед у фінансовому та страховому секторах.
Наприклад, Страхові компанії в режимі реального часу збирають дані про демографію, заробіток, медичні претензії, витрати на адвоката, погоду, записи голосу клієнта та примітки кол-центру. Конкретні дані в режимі реального часу допомагають отримати прогнозні моделі, поєднуючи вищезазначену інформацію з історичними даними для ранньої ідентифікації спекульованих шахрайських заяв.
# 4) Оптимізація ціни
Компанії використовують аналітику великих даних для збільшення норми прибутку, знаходячи найкращу ціну на рівні товару, а не на рівні категорії. Великі компанії вважають надто переважним отримання детальних деталей та складності змінних цін, які регулярно змінюються для тисяч товарів.
Стратегія оптимізації цін, керована аналітикою, така як динамічне оцінювання угод, дозволяє компаніям встановлювати ціни на кластери продуктів та сегментів на основі своїх даних та аналізу на рівні окремих угод, щоб швидко отримати виграш від вимогливих клієнтів.
Часті запитання
Q # 1) Чи є аналітика великих даних вдалою кар’єрою?
Відповідь: Це додана вартість для будь-якої організації, що дозволяє їй приймати зважені рішення та забезпечує перевагу над конкурентами. Переміщення в кар’єрі Big Data збільшує ваші шанси стати ключовим органом, який приймає рішення.
Q # 2) Чому аналітика великих даних важлива?
Відповідь: Це допомагає організаціям створювати нові можливості зростання та абсолютно нові категорії продуктів, які можуть поєднувати та аналізувати галузеві дані. Ці компанії мають достатньо інформації про товари та послуги, покупців та постачальників, переваги споживачів, які можна охопити та проаналізувати.
Q # 3) Що потрібно для аналізу великих даних?
Відповідь: Спектр технологій, з якими повинен бути знайомий хороший аналітик великих даних, величезний. Для того, щоб освоїти аналітику великих даних, потрібно розуміння різних інструментів, програмного забезпечення, обладнання та платформ. Наприклад, Електронні таблиці, запити SQL та R / R Studio та Python - це деякі основні інструменти.
На рівні підприємств такі інструменти, як MATLAB, SPSS, SAS та Congnos, важливі на додаток до Linux, Hadoop, Java, Scala, Python, Spark, Hadoop та HIVE.
Завдання:
Q # 4) Яка з наведених нижче баз даних не є базою даних NoSQL?
- MongoDB
- PostgreSQL
- CouchDB
- HBase
Відповідь: PostgreSQL
Q # 5) Чи є Кассандра NoSQL?
- Правда
- помилковий
Відповідь: Правда
Q # 6) Що з наведеного не є власністю Hadoop?
Запитання та відповіді для співбесіди в HTML
- Відкрите джерело
- На основі Java
- Розподілена обробка
- Реальний час
Відповідь: Реальний час
Q # 7) Виберіть усі дії, які НЕ виконує Data Scientist.
- Створюйте моделі машинного навчання та покращуйте їх ефективність.
- Оцінка статистичних моделей для підтвердження аналізів
- Узагальнюйте розширений аналіз за допомогою засобів візуалізації даних
- Презентація результатів технічного аналізу внутрішнім командам та бізнес-клієнтам
Відповідь: Презентація результатів технічного аналізу внутрішнім командам та бізнес-клієнтам
Подальше читання = >> Основні відмінності між Data Analyst та Data Scientist
Q # 8) Які дії виконує аналітик даних?
- Очищення та впорядкування необроблених даних
- Пошук цікавих тенденцій у даних
- створюйте інформаційні панелі та візуалізації для зручності інтерпретації
- Все вищеперераховане
Відповідь: Все вищеперераховане
Q # 9) Що з наведеного виконує Інженер даних?
- Інтеграція нових джерел даних у існуючий конвеєр аналітики даних
- Розробка API для споживання даних
- моніторинг та тестування системи на подальшу роботу
- Все вищеперераховане
Відповідь: Все вищеперераховане
Q # 10) Правильною послідовністю потоку даних для аналітики є
- Джерела даних, Підготовка даних, Перетворення даних, Проектування алгоритмів, Аналіз даних
- Джерела даних, перетворення даних, проектування алгоритмів, підготовка даних, аналіз даних
- Джерела даних, проектування алгоритмів, підготовка даних, перетворення даних, аналіз даних
- Джерела даних, підготовка даних, проектування алгоритмів, перетворення даних, аналіз даних
Відповідь: Джерела даних, Підготовка даних, Перетворення даних, Проектування алгоритмів, Аналіз даних
Q # 11) Аналіз даних - це лінійний процес.
- Правда
- помилковий
Відповідь: помилковий
Q # 12) Дослідницький аналіз НЕ
- Відповідь детальні питання щодо початкового аналізу даних
- Визначте проблеми з набором даних
- Розробіть ескіз відповіді на запитання
- Визначте, чи правильні дані для відповіді на запитання
Відповідь: Відповідьдетальні питання щодо початкового аналізу даних
Q # 13) Запитання передбачення - це інша назва, що дається висновку.
- Правда
- помилковий
Відповідь: помилковий
Висновок
Ми розглянули найважливіші аспекти аналізу великих даних. Ми пояснили найбільш поширені випадки використання та тенденції в галузі аналізу великих даних, щоб отримати максимальну користь.
Рекомендована література
- 7 найкращих компаній з аналізу даних у 2021 р. (Оновлений список 2021 р.)
- 15 найкращих інструментів великих даних (Big Data Analytics Tools) у 2021 році
- 10 найкращих інструментів аналізу даних для ідеального управління даними (СПИСОК 2021)
- 10 найкращих інструментів науки про дані в 2021 році для усунення програмування
- Підручник з великих даних для початківців | Що таке великі дані?
- 13 найкращих компаній великих даних 2021 року
- 10 найкращих інструментів моделювання даних для управління складними проектами
- 10+ найкращих інструментів управління даними, щоб задовольнити ваші потреби у даних у 2021 році