metadata data warehouse explained with examples
Цей посібник пояснює роль метаданих у ETL, приклади та типи метаданих, сховище метаданих та проблеми управління метаданими:
Data Mart в ETL було детально пояснено в нашому попередньому навчальному посібнику.
Поняття метаданих є дуже важливим у ETL, і цей посібник пояснить все про метадані.
Він охоплює роль метаданих, приклади метаданих, а також їх типи, сховище метаданих, те, як можна управляти метаданими зберігання даних, проблеми управління метаданими.
Ви також дізнаєтесь, що таке ETL, керований метаданими, та різницю між даними та метаданими.
=> Ознайомтесь із навчальною серією з безкоштовного складу даних тут.
Цільова аудиторія
- Розробники та тестувальники сховища даних / ETL.
- Фахівці з баз даних, що володіють базовими знаннями понять баз даних
- Адміністратори баз даних / експерти з великих даних, які хочуть зрозуміти області зберігання даних / ETL.
- Випускники коледжів / курси підвищення кваліфікації, які шукають роботу зі сховищем даних.
Що ви дізнаєтесь:
який найкращий безкоштовний брандмауер - -
Метадані в ETL
Команда сховища даних (або) користувачі можуть використовувати метадані в різних ситуаціях для побудови, обслуговування та управління системою. Основне визначення метаданих у сховищі даних: “Це дані про дані” .
Метадані можуть містити всі види інформації про дані DW, такі як:
- Джерело будь-яких вилучених даних.
- Використання цих даних DW.
- Будь-який тип даних та їх значення.
- Особливості даних.
- Логіка трансформації для вилучених даних.
- Таблиці DW та їх атрибути.
- Об'єкти DW
- Мітки часу
Метадані виступають як зміст даних у системі DW, де показано техніку з більш детальною інформацією про ці дані. Простими словами, ви можете уявити індекс будь-якої книги, який виконує роль метаданих, для вмісту цієї книги.
Подібним чином метадані працюють як індекс вмісту DW. Усі такі метадані зберігаються у сховищі. Переглядаючи метадані, кінцеві користувачі знають, з чого вони можуть почати аналіз системи DW. В іншому випадку кінцевим користувачам важко знати, з чого почати аналіз даних у такій величезній системі DW.
Роль метаданих у сховищі даних
У попередні дні метадані створювались і зберігались як документи. Але в сучасному цифровому світі різні інструменти полегшили цю роботу, записавши метадані на кожному рівні процесу DW.
Метадані, створені одним інструментом, можуть бути стандартизовані (тобто дані можуть бути переведені в один унікальний формат) і можуть використовуватися повторно в інших інструментах в будь-якому місці системи DW.
Оскільки нам відомо, що операційні системи підтримують поточні дані, системи DW зберігають історичні та поточні дані.
Метадані повинні відстежувати всі зміни, що відбуваються у вихідних системах, методах вилучення / перетворення даних та в структурі (або) змісті даних, які виникнуть у цьому процесі. Метадані підтримуватимуть різні версії для відстеження всіх цих змін протягом декількох років.
Достатня кількість метаданих, наданих у сховищі, допоможе будь-якому користувачеві в більш ефективному та незалежному аналізі системи. Розуміючи метадані, ви можете запускати будь-які запити щодо даних DW для досягнення найкращих результатів.
Наочне зображення ролі метаданих:
Приклади метаданих простими словами
Нижче наведено кілька прикладів метаданих.
як побудувати брандмауер для вікон -
- Метадані веб-сторінки можуть містити мову, на якій вона закодована, інструменти, що використовуються для її створення, підтримку браузерів тощо.
- Метадані цифрового зображення можуть містити розмір зображення, роздільну здатність, інтенсивність кольору, дату створення зображення тощо.
- Метадані документа можуть містити дату створення документа, дату останньої зміни, його розмір, автора, опис тощо.
Порівняння даних та метаданих
С.Ні | Дані | Метадані |
---|---|---|
1 | Дані - це сукупність інформації. | Метадані - це інформація про дані. |
два | Дані можуть (або) не оброблятися. | Метадані - це завжди оброблені дані. |
Типи метаданих
Класифікація метаданих на різні типи допоможе нам краще зрозуміти їх. Ця класифікація може базуватися на її використанні (або) користувачами тощо.
Давайте вивчимо різні типи метаданих нижче:
# 1) Кулуарні метадані: Керує базами даних (або) кінцевими користувачами щодо процесів вилучення, очищення та завантаження.
# 2) Метадані передньої кімнати: Направляє кінцевих користувачів на роботу з інструментами BI та звітами.
# 3) Обробка метаданих: Тут зберігаються метадані процесу ETL, такі як кількість завантажених, відхилених, оброблених рядків та час, необхідний для завантаження в систему DW тощо. Ця інформація також може бути доступна для кінцевих користувачів.
У той же час статистика постановочних таблиць також важлива для команди ETL. Ці метадані зберігатимуть дані процесу обробки проміжних таблиць, такі як кількість завантажених, відхилених, оброблених рядків та час, необхідний для завантаження в кожну проміжну таблицю.
# 4) Походження даних: Це зберігає логічне перетворення для кожного вихідного системного елемента в цільовий елемент DW.
# 5) Визначення бізнесу: Контекст таблиць DW випливає з визначень бізнесу. Кожен атрибут у таблиці пов'язаний з визначенням бізнесу. Отже, вони повинні зберігатися як метадані (або) як будь-який інший документ для подальшого використання. І кінцеві користувачі, і команда ETL залежать від цих визначень бізнесу.
# 6) Технічні визначення: Технічні визначення використовуються виключно в області розміщення даних більше, ніж визначення бізнесу. Основна мета - зменшити неоднозначність при створенні проміжних таблиць та повторно використовувати будь-які існуючі таблиці. Технічні визначення зберігатимуть деталі кожної інсценізаційної таблиці, такі як її розташування та структура.
Кожна інсценізаційна таблиця тут технічно задокументована, якщо не задокументована, то це означає, що інсценізаційна таблиця не існує. Це дозволяє уникнути відпочинку того самого інсценізаційного столу.
# 7) Метадані бізнесу: Дані зберігатимуться в діловому плані на користь кінцевих користувачів / аналітиків / менеджерів / будь-яких користувачів. Бізнес-метадані є проксі-сервером вихідних системних даних, тобто ніяких маніпуляцій з ними робити не можна. Його можна отримати з будь-яких ділових документів та ділових правил.
# 8) Технічні метадані: Тут зберігатимуться технічні дані, такі як атрибути таблиць, їх типи даних, розмір, атрибути первинного ключа, атрибути зовнішнього ключа та будь-які індекси. Це більш структуровано у порівнянні з діловими метаданими.
Технічні метадані в основному призначені для команди DW, таких як розробники / тестувальники / аналітики / DBA для побудови (або) підтримки системи. Це також суттєво використовується адміністраторами для моніторингу завантаження бази даних, резервного копіювання даних тощо.
# 9) Оперативні метадані: Як ми знаємо, дані до системи DW надходять з багатьох операційних систем з різними типами даних та полями. Витяги DW перетворюють такі дані в унікальний тип і завантажують усі ці дані в систему.
У той же час він повинен мати можливість повернути дані назад до вихідних системних даних. Метадані, що зберігають всю цю інформацію про оперативні джерела даних, відомі як операційні метадані.
# 10) Інформація про вихідну систему:
Ви можете збирати такі метадані з різних вихідних систем:
- Файлова система баз даних (або): Це буде зберігати імена вихідних системних баз даних (або) файлів.
- Технічні характеристики таблиці: Тут зберігатимуться всі деталі про таблиці, такі як назва таблиці, її призначення, розмір, атрибути, первинні ключі та зовнішні ключі.
- Правила обробки винятків: Це дозволить зберігати різні методи відновлення системи у разі збоїв системи.
- Визначення бізнесу: Тут зберігатимуться визначення бізнесу для короткого розуміння даних.
- Правила ведення бізнесу: Це дозволить зберегти набір правил для кожної таблиці, щоб зрозуміти її дані та уникнути невідповідності.
Метадані вихідної системи економить багато часу для команди DW під час аналізу даних.
# 11) Метадані роботи про ETL: Метадані завдань ETL дуже важливі, оскільки вони зберігають деталі всіх завдань, що підлягають обробці, у графіку для завантаження системи ETL.
Ці метадані зберігають таку інформацію:
- Ім'я роботи: Назва роботи ETL.
- Призначення роботи: Мета запуску роботи.
- Вихідні таблиці / файли: Він надає назви та розташування всіх таблиць та файлів, з яких дані отримуються цим завданням ETL. Це може мати більше однієї таблиці (або) імені файлу.
- Цільові таблиці / файли: Він надає імена та розташування всіх таблиць та файлів, до яких дані трансформуються цим завданням ETL. Це може мати більше однієї таблиці (або) імені файлу.
- Відхилені дані: Він надає імена та розташування всіх таблиць та файлів, з яких передбачені вихідні дані не були завантажені у ціль.
- Попередні процеси: Він надає імена сценаріїв завдань (або), від яких залежить поточне завдання. Це означає, що їх потрібно успішно виконати перед запуском поточного завдання.
- Постпроцеси: Він надає імена сценаріїв завдань (або), які слід запустити відразу після поточного завдання, щоб завершити процес.
- Частота: Він надає інформацію про те, як часто слід виконувати роботу, тобто щодня, щотижня (або) щомісяця.
# 12) Метадані перетворення: Метадані трансформації зберігають всю інформацію про будівництво, пов’язану з процесом ETL. Кожна окрема маніпуляція з даними в процесі ETL відома як перетворення даних.
Будь-який набір функцій, збережених процедур, курсорів, змінних та циклів у процесі ETL можна розглядати як перетворення. Але такі перетворення не можна документувати окремо як метадані.
Весь процес ETL складається з перетворень даних. Кілька перетворень в ETL можуть бути визначені і використані в системі DW. Розробники ETL витрачають свій час на створення (або) переробку всіх перетворень даних. Повторне використання заздалегідь визначених перетворень під час розробки процесу ETL пришвидшить роботу.
Прочитайте наведені нижче перетворення даних, які ви можете знайти в ETL:
- Вилучення вихідних даних: Це передбачає перетворення даних для зчитування з вихідних системних даних, таких як запит SQL Select (або) FTP (або) читання даних XML / мейнфрейма.
- Генератори сурогатних ключів: Новий порядковий номер, який слід створити для кожного рядка таблиці бази даних, зберігається як метадані.
- Пошук: Пошук може бути сформований з усіма операторами IN, внутрішніми та зовнішніми об’єднаннями. Вони в основному використовуються для утримання сурогатних ключів з усіх відповідних таблиць розмірів під час завантаження факту.
- Фільтри: Фільтри рекомендуються для сортування даних, які слід витягти, завантажити та відхилити в процесі ETL. Фільтрування даних на ранніх стадіях системи ETL є гарною практикою. Фільтри застосовуються залежно від ділових правил (або) обмежень.
- Агрегати: Залежно від рівня деталізації даних можуть використовуватися такі метадані, що стосуються сукупних функцій, таких як сума, кількість, середнє значення тощо.
- Стратегії оновлення: Це правила, що застосовуються до запису під час оновлення даних. Якщо в існуючих даних є якісь зміни, це вказує, чи слід додавати, видаляти (або) оновлювати запис.
- Цільовий навантажувач: Завантажувач цілей зберігатиме деталі бази даних, імена таблиць та імена стовпців, в які дані повинні завантажуватися через процес ETL. Більше того, це також буде зберігати деталі утиліти масового завантаження, якщо такі є, що виконується під час завантаження даних у систему ETL.
Кожне перетворення можна назвати чітко із коротким поміткою про його мету.
Деякі приклади конвенцій іменування наведено тут для наведеного вище переліку перетворень.
SRC_ SEQ_ LKP_ FIL_ AGG_ UPD__ TRG_
Сховище метаданих в ETL
Сховище метаданих - це місце, де будь-який тип метаданих зберігається або в локальній базі даних (або) у віртуальній базі даних. Кожен тип метаданих, таких як ділові метадані (або) технічні метадані, можна логічно розділити у сховищі.
На додаток до вищезазначених двох типів, сховище також має ще один компонент, який називається Інформаційний навігатор.
Інформаційний навігатор можна використовувати для виконання наступних завдань:
- Інтерфейс із інструменту запитів: Це забезпечує інтерфейс до інструментів запитів для доступу до метаданих DW.
- Розгорніть для деталей: Це дозволяє користувачеві деталізувати метадані для отримання більш детальної інформації. Як приклад, на першому рівні користувач може отримати визначення таблиці даних. За допомогою деталізації він може отримати атрибути таблиці на наступному рівні. Додавши детальніші дані, він може отримати деталі кожного атрибута тощо.
- Перегляньте заздалегідь визначені запити та звіти: Це дозволяє користувачеві переглядати заздалегідь визначені запити та звіти. Це виступає в якості посилання на власні запити з відповідними параметрами тощо.
Зображення сховища метаданих:
Як можна керувати метаданими зберігання даних?
Люди, процеси та інструменти є ключовими джерелами для управління метаданими.
- Люди повинні розуміти метадані для відповідного використання.
- Процес включатиме метадані в сховище інструментів (або) із прогресом життєвого циклу DW для подальшого використання.
- Згодом метаданими можна керувати за допомогою інструментів.
Виклики для управління метаданими
Після створення метаданих ви можете зіткнутися з наведеними нижче проблемами під час інтеграції та управління метаданими в систему.
- Об’єднання різних форматів метаданих у стандартний формат може зажадати більше зусиль, якщо в системі DW використовуються різні інструменти, оскільки метадані можуть зберігатися в електронних таблицях, програмах (або) базах даних.
- Формати метаданих не мають встановлених загальногалузевих стандартів. Через відсутність стандартизованого процесу важко передавати метадані через різні рівні системи та інструментів DW.
- Послідовне ведення різних версій історичних метаданих є складним завданням.
Що таке ETL, керований метаданими?
ETL, керований метаданими, встановлює рівень для спрощення процесу завантаження даних у систему DW. Ви можете вирішити, чи обробляти дані в систему (або), не залежно від метаданих. Отже, ви можете назвати це ETL як керований метаданими.
Висновок
Значна роль метаданих у визначенні успіху (або) відмови системи DW була детально пояснена в цьому посібнику.
Ми також детально вивчили значення, роль, приклади, типи, виклики метаданих, а також відповідне зображення.
Ми сподіваємось, що ці інформативні підручники з цієї серії сховищ даних збагатили ваші знання про зберігання даних та пов'язані з ними концепції !!!
як написати електронне повідомлення на зразок рекрутера
Щасливого читання !!
=> Завітайте сюди, щоб навчитися зберігання даних з нуля.
Рекомендована література
- Підручник з тестування сховища даних із прикладами | Посібник з тестування ETL
- Підручник з тестування сховища даних ETL (повний посібник)
- Вимірна модель даних у сховищі даних - Підручник із прикладами
- Підручник з Data Mart - типи, приклади та реалізація Data Mart
- Що таке процес ETL (витяг, перетворення, завантаження) у сховищі даних?
- 10 найкращих інструментів картографування даних, корисних у процесі ETL (2021 СПИСОК)
- Приклади інтелектуального аналізу даних: Найпоширеніші програми інтелектуального аналізу даних 2021
- Запитання та відповіді на інтерв’ю для тестування ETL