oracle data warehouse
Посібник із сховища даних Oracle із перевагами, архітектурою, ризиками та порівнянням із системою OLTP (Інтернет-обробка транзакцій):
У попередньому підручнику Всебічне керівництво по Oracle , ми дізналися про продукти та послуги Oracle у різних сферах, таких як програми, бази даних, ОС тощо. Ця стаття надасть глибокі знання щодо зберігання даних Oracle. Але перед цим давайте спочатку зрозуміємо поняття Business Intelligence (BI).
Бізнес-аналітики
Business Intelligence - це програмний домен, який втілює певні методи, технології, інструменти та додатки, що допомагає структурувати, уточнювати та перетворювати об’ємні дані в розумний та зрозумілий формат, який може бути використаний клієнтами для створення індивідуальних звітів, а також допомагає у веденні бізнесу рішення.
Для задоволення цієї потреби доступні різні варіанти, такі як зберігання даних, OLAP (обробка онлайн-транзакцій), видобуток даних, інтеграція даних, розробка рішень, електронні таблиці тощо.
Складування даних підприємств (EDW) є одним із основних компонентів BI, який забезпечує аналітичні та звітні потреби підприємств. Data Warehouse - це реляційна система управління базами даних (RDBMS), яка зберігає консолідовані дані, отримані з декількох джерел, для подальшого використання.
засоби автоматизації тестування веб-додатків
Що ви дізнаєтесь:
- Огляд сховища даних Oracle
- Порівняння сховища даних OLTP проти даних
- Контрастний склад даних та дані Mart
- Огляд процесу ETL
- Архітектура сховища даних
- Висновок
Огляд сховища даних Oracle
Чому його називають «сховищем даних»?
Спробуємо згадати значення слова „склад”, щоб пов’язати його з терміном „Склад даних”.
Фізичний склад - це сховище, яке використовується для зберігання товарів, отриманих з різних джерел, які згодом можуть бути надані замовнику відповідно до його потреб.
(зображення джерело )
Подібним чином сховище даних є сховищем даних, отриманих з різних вихідних систем. Цими джерелами можуть бути будь-які системи зберігання, такі як файли даних, плоскі файли або будь-які носії інформації, що зберігають дані для різних корпоративних доменів, таких як HR, продажі, операції, управління ресурсами та маркетинг тощо.
Мета створення сховища даних
Підприємство могло б чути про концепцію сховища даних, але вони можуть бути не впевнені, чи варто їх включати до свого підприємства. Тим не менше, завжди було б потрібно скидати дані з різних джерел на спільну основу та архівувати їх, щоб звільнити місце для зберігання з транзакційних систем. Тут система зберігання даних стає вимогою бізнесу.
Щоб розвиватися на ринку, менеджмент повинен добре приймати рішення, яке можна прийняти лише після ретельного вивчення минулих тенденцій організації. Отже, ці заархівовані дані зберігаються в сховищі даних у впорядкованому та обчислюваному форматі, щоб їх можна було направляти на бізнес-аналіз у майбутньому.
Переваги зберігання даних
Сховище даних, якщо його вдало впровадити, може бути корисним наступними способами:
# 1) Це спростило роботу аналітиків, надавши розширену версію рішень для бізнес-аналітики. Він витягує дані з декількох вихідних систем, перетворює та зберігає їх, що може бути безпосередньо запитано бізнесом для аналізу.
Він також пропонує різні інструменти, які підтримують наступне:
- Створення індивідуальних бізнес-звітів.
- Інтерактивні інформаційні панелі, що відображають необхідну інформацію.
- Можливість детального аналізу панелей інструментів лише для отримання деталей.
- Видобуток даних та аналіз тенденцій.
# два) Навіть після отримання даних з різних вихідних систем, дані в сховищі даних залишаються незмінними в результаті перетворень, які відбулися під час процесу ETL. Послідовні дані надають впевненості особі, що приймає рішення, з точки зору точності.
# 3) Сховища даних також визначаються як економія часу, оскільки критичні дані, необхідні зацікавленим сторонам для прийняття бізнес-рішень, доступні в одному місці та можуть бути легко отримані.
# 4) Вони призначені для зберігання історичних даних, а отже, їх можна запитувати для вивчення тенденцій у різні періоди часу. Це також допомагає зацікавленим сторонам визначити майбутній шлях зростання.
Ризики, пов’язані з використанням сховища даних
Поряд із перевагами, кожне нове впровадження також включає низку ризиків, про які потрібно подбати.
як розділити рядок за символом python - -
Нижче наведено деякі ризики:
- Несумісність вихідних систем із системою зберігання даних може в кінцевому підсумку зробити багато ручної роботи.
- Неправильна оцінка часу процесу ETL може призвести до переривання роботи.
- Це дуже висококласні системи зберігання, тому вони потребують високого обслуговування. Будь-який робочий процес або ділові зміни можуть коштувати дуже дорого.
- Налаштування сховища даних вимагає часу, оскільки йому потрібно багато часу, щоб зрозуміти бізнес-потоки та визначити можливості інтеграції для проектування складу.
- Захист даних тут завжди є ризиком, оскільки вони містять давні історичні дані, які, якщо їх витокуть, можуть вплинути на бізнес.
Порівняння сховища даних OLTP проти даних
Різницю між OLTP та сховищем даних можна зрозуміти з таблиці нижче.
OLTP | Зберігання даних |
---|---|
Вставлення та оновлення - це основні операції, що виконуються кінцевими користувачами в системах OLTP. | Сховища даних в основному запитуються за допомогою оператора SELECT і можуть бути оновлені лише за допомогою служб ETL. |
Системи OLTP підтримують ділові операції. | Data Warehouse підтримує бізнес-рішення, прийняті після аналізу завершених ділових операцій. |
Дані залишаються мінливими, тобто постійно змінюються | Дані не слід змінювати. |
Вони містять найсвіжіші дані. | Вони містять історичні дані. |
Зберігає вихідні дані без будь-яких обчислень. | Містить узагальнені та добре обчислені дані. |
Дані будуть нормалізовані. | Дані не будуть нормалізовані. |
Розмір бази даних Oracle може коливатися від 50 МБ до 100 ГБ. | Розмір бази даних Oracle може коливатися від 100 ГБ до 2 ТБ. |
Контрастний склад даних та дані Mart
Data Warehouse та DataMart, обидва терміни не схожі один на одного і, схоже, пов’язані із зберіганням даних.
Так, вони пов’язані, і обидва вони використовуються для зберігання даних. Основною відмінністю між ними є здатність зберігати дані, і ця різниця допомагає кінцевим споживачам вибрати відповідний блок зберігання даних для своїх систем.
Data Mart має меншу здатність зберігати дані порівняно із сховищем даних, і тому його можна розглядати як його підмножину. Марки даних зазвичай ідентифікуються для зберігання обмежених даних, які можуть належати до певного відділу або напрямку діяльності, тоді як сховища даних можуть використовуватися для зберігання зведених даних для всіх.
Давайте візьмемо приклад веб-сайту електронної комерції, який містить різні категорії товарів, такі як Мода, Аксесуари, Предмети домашнього вжитку, Книги та шкільне приладдя, Електронні прилади тощо.
Отже, маркер даних може бути розроблений для розумного зберігання категорії даних про товар, тоді як сховища даних можуть використовуватися для зберігання повних даних веб-сайту, включаючи історію, в одному місці.
Маркери даних мають менший розмір, їх можна створити набагато швидше без особливого аналізу, як це потрібно для проектування сховища даних. Однак потрібно багато зусиль, щоб синхронізувати кілька позначень даних, щоб зберегти узгодженість даних.
Огляд процесу ETL
ETL (вилучення, перетворення та завантаження) - це процес вилучення даних із різних вихідних систем, перетворення та завантаження їх у систему сховища даних. Це складний процес, який повинен взаємодіяти з різними системами джерел для вилучення даних, а отже, і технічно складним.
Трансформація знову потребує багато аналізу, щоб зрозуміти формат вихідних систем і привести дані до загального формату, щоб ті самі дані могли зберігатися в сховищі даних.
Процес ETL - це періодична робота, яка може виконуватися щодня, щотижня або навіть щомісяця, залежно від вимог бізнесу.
Архітектура сховища даних
Давайте розберемося в архітектурі сховища даних, яке в основному призначене для зберігання уточнених даних для наперед визначених бізнес-вимог. Архітектура складається з 5 компонентів з потоком даних зверху вниз.
Компоненти такі:
- Джерела даних
- Інтернетування даних
- Сховище даних (зберігання даних)
- Марш даних (зберігання даних)
- Презентація даних
Давайте зрозуміємо всі етапи, перераховані вище, по одному.
# 1) Джерела даних
Існують різні системи джерел, які виконують роль вхідних даних до систем зберігання даних.
Такими вихідними системами можуть бути:
- Реляційні бази даних, такі як Oracle, DB2, MySQL, MS Access тощо, які можуть використовуватися для запису щоденних транзакцій будь-якої організації. Ці щоденні ділові операції можуть бути пов’язані з ERP, CRM, продажами, фінансами та маркетингом тощо.
- Плоскі файли
- Веб-сервіси
- RSS-канали та подібні джерела.
# 2) Інтернетування даних
Після того, як джерела даних встановлені, наступним кроком буде вилучення цих даних із систем джерел у зону складування.
Оскільки дані отримувались з різних систем, що відповідають різним форматам зберігання, потрібно реструктуризувати дані, щоб привести їх до загального формату. Отже, перетворення даних відбувається як наступний крок.
Під час трансформації відбувається очищення даних, що включає застосування ділових правил, фільтрацію даних, видалення надмірностей, форматування даних, сортування даних тощо.
# 3) Сховище даних (зберігання даних)
яка найкраща безкоштовна програма для завантаження музики
Після того, як дані будуть вилучені та перетворені, вони будуть завантажені в багатовимірне середовище, тобто сховище даних. Тепер ці оброблені дані можуть бути використані для аналізу та інших цілей кінцевими користувачами.
# 4) Марти даних (зберігання даних)
Як уже згадувалося вище, дані тепер готові до споживання кінцевими користувачами, є наступним кроком необов’язковий процес створення Marts Data. Ці таблиці даних можуть бути використані для зберігання узагальнених даних певного відділу або галузі діяльності для спеціального використання.
Наприклад, окремі позначки даних можуть бути додані для таких підрозділів, як продаж, фінанси, маркетинг тощо, як наступний крок, який буде містити конкретні дані та дозволяє аналітику виконувати детальні запити для бізнес-потреб. Це також перешкоджає кожному іншому кінцевому користувачеві отримати доступ до повного складу і, отже, робить дані безпечними.
# 5) Інструменти доступу до даних (Презентація даних)
Існує ряд заздалегідь визначених інструментів бізнес-аналітики, які користувачі можуть використовувати для доступу до сховищ даних або даних. Ці інтерфейсні інструменти розроблені надзвичайно зручно, надаючи користувачам різні варіанти доступу до даних.
Варіанти згадані нижче:
- Застосовуючи запит до Oracle або будь-яких інших баз даних безпосередньо через SQL.
- Створення звіту.
- Розробка додатків.
- Використання інструментів видобутку даних тощо
Кілька популярних складських інструментів, доступних на ринку:
- Analytix DS
- Amazon Redshift
- Програмне забезпечення Ab Initio
- Кодекс ф'ючерсів
- Цілісне управління даними
- Корпорація інформатики
Хмарне зберігання даних
Сховища даних надмірно визнані у світі. Наступне питання, яке виникає: чи використовуємо ми оптимізований підхід для розгортання сховищ даних?
Потім було представлено хмарне сховище даних, яке взяло верх над корпоративним зберіганням даних (EDW). Концепція хмарних сховищ даних пропонує різні переваги.
Вони такі:
(i) Масштабованість: Дані в хмарних системах легко масштабуються вгору і вниз без жодних клопотів, в той час як це вимагає багато часу та ресурсів для масштабування на традиційних сховищах даних.
(ii) Заощадження витрат: Хмарні сховища даних суттєво змінили інвестиції, необхідні для налаштування складу. Вони зменшили основні авансові витрати, виключивши їх
-
- Обслуговування апаратних / серверних приміщень.
- Персонал, необхідний для обслуговування.
- Інші операційні витрати.
(iii) Ефективність: Продуктивність - ще один фактор, який дозволив хмарним системам домінувати над традиційними. Якщо бізнес розширюється у глобальному масштабі, і доступ до даних потрібно отримувати з різних куточків світу з більш швидким обертом, найкраще використовувати хмарні склади.
Масивно паралельна обробка (MPP) - це один із методів спільної обробки, який використовується складами для досягнення такого ж.
(iv) Зв'язок: Як уже згадувалося вище, якщо доступ до даних потрібно здійснювати з різних географічних розташувань, користувачам потрібне відмінне підключення до цих складів, а хмарний склад пропонує те саме.
Висновок
Ми сподіваємось, ви всі отримали чесне уявлення про систему зберігання даних Oracle після прочитання вищезазначеної статті. Повідомте нас, якщо вам потрібна якась інформація щодо певної теми щодо зберігання даних, щоб ми могли це висвітлити у майбутніх підручниках.
НАЗАД Підручник | НАСТУПНИЙ підручник
Рекомендована література
- Що таке озеро даних | Склад даних проти озера даних
- Підручник з тестування сховища даних із прикладами Посібник з тестування ETL
- Топ-10 популярних засобів зберігання даних та технології тестування
- Вимірна модель даних у сховищі даних - Підручник із прикладами
- Метадані у сховищі даних (ETL), пояснені на прикладах
- Підручник з тестування сховища даних ETL (повний посібник)
- Типи схем у моделюванні сховища даних - схема Star & SnowFlake
- Що таке процес ETL (витяг, перетворення, завантаження) у сховищі даних?