what is data lake data warehouse vs data lake
Цей посібник пояснює все про озеро даних, включаючи його потреби, визначення, архітектуру, переваги та відмінності між озером даних та сховищем даних:
Термін „озеро даних” досить часто використовується в сучасному ІТ-світі. Ви коли-небудь замислювались, що це і звідки саме походить цей термін?
В епоху інформаційних технологій, де дані поповнюються вдень і вночі у численних формах, концепція озера даних стає безумовно важливою та корисною.
Давайте вивчимо, що таке озеро даних та які його переваги, використання тощо детально тут.
Що ви дізнаєтесь:
- Що таке озеро даних і як воно працює?
- Висновок
Що таке озеро даних і як воно працює?
Озеро даних - це система або централізоване сховище даних, що дозволяє зберігати всі ваші структуровані, напівструктуровані, неструктуровані та двійкові дані у своєму природному / власному / необробленому форматі.
Структуровані дані можуть включати таблиці із СУБД; напівструктуровані дані включають файли CSV, XML, журнали, JSON тощо; неструктуровані дані можуть включати PDF-файли, текстові документи, текстові файли, електронні листи тощо; і двійкові дані можуть включати аудіо, відео, файли зображень.
Це слідує плоскій архітектурі для зберігання даних. Як правило, дані зберігаються у вигляді об'єктних крапок або файлів.
(зображення джерело )
За допомогою озера даних ви можете зберігати все своє підприємство в одному місці без необхідності попередньо структурувати дані. Ви можете безпосередньо виконувати на ній різні типи аналітики, включаючи машинне навчання, аналітику в реальному часі, локальний рух даних, переміщення даних у реальному часі, інформаційні панелі та візуалізацію.
Він зберігає всі дані в ньому в оригінальній формі і передбачає, що аналіз відбудеться пізніше, на вимогу.
Аналогія озера даних
(зображення джерело )
Термін Озеро даних придумав Джеймс Діксон, тодішній технічний директор у Пентахо. Він визначає маркет даних (підмножина сховища даних) як подібний до пляшки з водою, наповненої очищеною, дистильованою водою, упакованої та структурованої для прямого та простого використання.
З іншого боку, це аналог водойми в її природному вигляді. Дані надходять з потоків (різні бізнес-функції / системи джерел) до озера. Споживачі озера даних, тобто користувачі мають доступ до озера для аналізу, дослідження, збору зразків та занурення.
Подібно до того, як вода в озері задовольняє різні потреби людей, таких як риболовля, катання на човнах, забезпечення питною водою тощо, аналогічно, архітектура даних озера служить різним цілям.
Запитання та відповіді на співбесіду html5 pdf
Вчений-дослідник може використовувати його для дослідження даних та створення гіпотези. Це дає можливість аналітикам даних аналізувати дані та виявляти закономірності. Він надає можливість діловим користувачам та зацікавленим сторонам досліджувати дані.
Це також пропонує можливість аналітикам-звітникам розробляти звіти та представляти їх бізнесу. Навпаки, сховище даних упаковує дані для чітко визначених цілей, як пляшка біслері, яку можна використовувати лише для питної води.
Ринок даних озера - зростання, тенденції та прогнози
Ринок озера даних поділяється на основі продукту (рішення або послуги), розміщення (попередньо або хмарно), галузі клієнтів (роздрібна торгівля, банківська справа, комунальне господарство, страхування, ІТ, охорона здоров'я, телекомунікації, видавнича справа, виробництво) та географічного регіонах.
Відповідно до звіту, опублікованого Mordor Intelligence, нижче - знімок ринку для озера даних:
(зображення джерело )
# 1) Підсумок ринку
Ринок озер даних оцінювався в 3,74 млрд. Доларів США у 2019 році, і, як очікується, до 2025 року він досягне 17,60 мільярда доларів США за рівнем CAGR (складений річний темп приросту) 29,9% за прогнозний період 2020 - 2025 років.
Ці резервуари даних все частіше виявляються економічним варіантом для багатьох організацій над сховищами даних. На відміну від озер даних, зберігання даних вимагає додаткової обробки даних перед надходженням на склад.
Витрати на управління озером даних менші порівняно із сховищем даних через велику кількість обробки та місця, необхідного для створення бази даних для сховищ.
# 2) Основні гравці
Передбачається, що ринок Data Lake буде консолідованим ринком, де домінуватимуть п’ять ключових гравців, як показано на малюнку нижче.
# 3) Ключові тенденції
- Очікується, що його використання значно зросте у банківському секторі. Банки застосовують озера даних для забезпечення аналітики на ходу. Крім того, це допомагає розчинити багато елеваторів у банківському секторі.
- Оскільки в усьому світі спостерігається величезне збільшення цифрових платежів / використання мобільних гаманців, можливості для аналізу великих даних і, отже, можливості для них зростають.
- Передбачається, що Північна Америка буде широко прийнята для озер даних. Дослідження, проведене Capgemini, говорить про те, що понад 60% фінансових організацій у США вважають, що аналітика великих даних виступає як диференціатор для бізнесу та дає їм конкурентну перевагу. Понад 90% організацій вважають, що інвестування у проекти великих даних збільшує шанси на успіх у майбутньому.
- Вони потрібні для використання програм розумних лічильників, і в США очікується, що в 2021 році буде встановлено близько 90 мільйонів розумних лічильників. Отже, на них передбачається високий попит.
Чому потрібне озеро даних?
Призначення озера даних полягає в наданні необробленого уявлення про дані (дані в чистому вигляді).
Приклади
На сьогоднішній день багато великих компаній, включаючи Google, Amazon, Cloudera, Oracle, Microsoft та деякі інші, пропонують озеро даних.
Багато організацій використовують хмарні служби зберігання даних, такі як Azure Data Lake або Amazon S3. Компанії також використовують розподілену файлову систему, таку як Apache Hadoop. Концепція озера персональних даних, яке дозволяє управляти своїми власними великими даними та ділитися ними, також еволюціонувала.
Якщо говорити про промислове використання, то це дуже підходить для сфери охорони здоров’я. Через неструктурований формат великої кількості даних у галузі охорони здоров’я ( Наприклад, Зауваження лікаря, клінічні дані, історія хвороби пацієнта тощо) та вимога до статистики в режимі реального часу, озеро даних є чудовим варіантом над сховищем даних.
Він пропонує гнучкі рішення в освітньому секторі, де дані дуже великі та дуже необроблені.
У транспортному секторі, головним чином в галузі управління ланцюгами поставок або логістики, це допомагає робити прогнози та реалізовувати вигоди від скорочення витрат.
Авіаційна та електроенергетична галузі також використовують озера даних.
Прикладом його реалізації є GE Predix (розроблений General Electric), який є промисловою платформою озера даних, що пропонує потужні повноваження щодо управління даними для створення, розгортання та управління промисловими додатками, що пов'язує з промисловими активами, збирає та аналізує дані та забезпечує реальний час ідеї щодо вдосконалення промислової інфраструктури та процесів.
Різниця між сховищем даних проти озера даних
Часто людям важко зрозуміти, чим озеро відрізняється від сховища даних. Вони також стверджують, що це те саме, що сховище даних. Але це не реальність.
Єдине спільне між озером даних і сховищем даних полягає в тому, що обидва вони є сховищами даних. Відпочинок, вони різні. Вони мають різні варіанти використання та цілі.
Розбіжності пояснюються нижче:
Озеро даних | Інформаційне сховище | |
---|---|---|
Аналітика | Озеро даних можна використовувати для машинного навчання, профілювання даних для виявлення даних та прогнозного аналізу. | Сховище даних можна використовувати для бізнес-аналітики, візуалізації та звітності про партії. |
Дані | Озеро даних збереже в ньому всі вихідні дані. Він може бути структурованим, неструктурованим або напівструктурованим. Можливо, деякі дані в озері даних ніколи не використовуватимуться. | Склад даних включає лише ті дані, які обробляються та вдосконалюються, тобто структуровані дані, необхідні для складання звітів та вирішення конкретних бізнес-проблем. |
Користувачі | Як правило, користувачами озера даних є науковці та розробники даних. | Як правило, користувачами сховища даних є бізнес-професіонали, оперативні користувачі та бізнес-аналітики. |
Доступність | Озеро даних є високодоступним, легко та швидко оновлюється, оскільки воно не має жодної структури. | У сховищі даних оновлення даних є більш складною та витратною операцією, оскільки сховища даних структуровані за проектом. |
Схема | Схема на запис. Розроблений до впровадження DW. | Схема на читання. Написано під час аналізу. |
Архітектура | Плоский архітектури | Ієрархічна архітектура |
Призначення | Призначення необроблених даних, що зберігаються в озерах даних, не є фіксованим або невизначеним. Часом дані можуть надходити в озеро даних, маючи на увазі певне майбутнє використання або просто для того, щоб мати їх під рукою. Озеро даних має менш організовані та менш відфільтровані дані. | Оброблені дані, що зберігаються у сховищі даних, мають конкретне і певне призначення. DW організував та відфільтрував дані. Отже, він вимагає менше місця для зберігання, ніж озеро даних. |
Зберігання | Призначений для недорогого зберігання. Апаратне забезпечення озера даних сильно відрізняється від апаратного забезпечення сховища даних. Він використовує готові сервери в поєднанні з дешевим сховищем. Це робить озеро даних досить економічним та дуже масштабованим до терабайт та петабайт. Це робиться для збереження всіх даних в озері даних, щоб ви могли в будь-який момент повернутися до часу, щоб зробити аналіз. | Дорого для великих обсягів даних. У сховищі даних є дороге дискове сховище, щоб зробити його високоефективним. Тому для економії простору модель даних спрощується, і на сховищі даних зберігаються лише ті дані, які дійсно необхідні для прийняття бізнес-рішень. |
Підтримка типів даних | Озеро даних дуже добре підтримує нетрадиційні типи даних, такі як журнали серверів, дані датчиків, активність у соціальних мережах, текст, зображення, мультимедіа тощо. Усі дані зберігаються незалежно від джерела та структури. | Як правило, сховище даних складається з даних, отриманих з транзакційних систем. Він не дуже добре підтримує нетрадиційні типи даних. Зберігання та споживання нетрадиційних даних може бути дорогим та складним із сховищем даних. |
Безпека | Безпека озер даних знаходиться на стадії «дозрівання», оскільки це порівняно нова концепція, ніж сховище даних. | Безпека сховищ даних знаходиться на стадії «дозрівання». |
Спритність | Високо рухливий; налаштуйте та переналаштуйте за необхідності. | Менш рухливий; фіксована конфігурація. |
Архітектура озера даних
Схема архітектури
Вище - концептуальна схема архітектури озера даних. Зліва зліва ви бачите, що у нас є джерела даних, які можуть бути структурованими, напівструктурованими або неструктурованими.
Ці джерела даних поєднуються у сховище необроблених даних, яке використовує дані у необробленому вигляді, тобто дані без будь-яких перетворень. Це недороге, постійне та масштабоване сховище.
Далі ми маємо аналітичні пісочниці, які можна використовувати для виявлення даних, дослідницького аналізу даних та прогнозного моделювання. В основному це використовується вченими з даних, щоб дослідити дані, побудувати нову гіпотезу та визначити випадки використання.
Потім існує механізм пакетної обробки, який обробляє необроблені дані у споживчій формі споживача, тобто у структурованому форматі, який можна використовувати для звітування перед кінцевими користувачами.
Тоді ми маємо механізм обробки в реальному часі, який береться в потокові дані та трансформує їх.
Основні характеристики озера даних
Щоб бути класифікованим як озеро даних, сховище великих даних повинно мати такі три атрибути:
# 1) Єдине загальне сховище даних, яке зазвичай зберігається в розподіленій файловій системі (DFS).
Дані Hadoop підтримують збереження даних у власному вигляді та фіксують зміни даних та відносну семантику протягом життєвого циклу даних. Цей підхід особливо корисний для перевірок відповідності та внутрішнього аудиту.
Це вдосконалення порівняно зі звичайним сховищем даних підприємств, коли, коли дані переходять через перетворення, агрегування та модифікації, важко скласти дані в цілому, коли це потрібно, а компанії прагнуть з’ясувати джерело / походження даних.
# 2) Включає можливості планування та планування завдань (Наприклад, за допомогою будь-якого інструмента планувальника, такого як YARN тощо).
Виконання робочого навантаження є суттєвою потребою для підприємств Hadoop, а YARN пропонує управління ресурсами та центральну платформу для забезпечення постійних процесів, безпеки та інструменти управління даними у кластерах Hadoop, переконуючись, що аналітичні робочі процеси мають необхідний рівень доступу до даних та обчислювальної потужності.
ліве зовнішнє з'єднання проти ліве з'єднання
# 3) Складається з набору утиліт та функцій, необхідних для споживання, обробки або роботи з даними.
Легка та швидка доступність для користувачів є однією з ключових рис озера даних, оскільки організації зберігають дані у власному або чистому вигляді.
У якій би формі дані не були структурованими, неструктурованими або напівструктурованими, вони вставляються так само, як і в озері даних. Це дозволяє власникам даних поєднувати дані про замовника, постачальника та операції, позбувшись будь-яких технічних або політичних бар'єрів для обміну даними.
Переваги
(зображення джерело )
- Універсальний : Достатньо компетентний для зберігання всіх видів структурованих / неструктурованих даних, починаючи від даних CRM і закінчуючи діяльністю в соціальних мережах.
- Більша гнучкість схеми : Не потребує планування або попередніх знань з аналізу даних. Він зберігає всі дані в оригінальному вигляді і передбачає, що аналіз відбудеться пізніше, на вимогу. Це дуже корисно для OLAP. Наприклад, озеро даних Hadoop дозволяє вам бути без схем, де ви можете відокремити схему від даних.
- Аналіз рішень у режимі реального часу : Вони користуються перевагами величезної кількості послідовних даних та алгоритмів глибокого навчання для досягнення аналітики прийняття рішень у реальному часі. Здатний отримувати значення з необмежених типів даних.
- Масштабована: Вони набагато масштабніші, ніж традиційні сховища даних, і вони також менш затратні.
- Розширена аналітика / сумісність з SQL та іншими мовами: Для озер даних існує безліч способів запитувати дані. На відміну від традиційних сховищ даних, які підтримують лише SQL для простої аналітики, вони надають вам безліч інших варіантів та мовну підтримку для аналізу даних. Вони також сумісні з інструментами машинного навчання, такими як Spark MLlib.
- Демократизація даних: Демократизований доступ до даних за допомогою єдиного, інтегрованого перегляду даних у всій організації, використовуючи ефективну платформу управління даними. Це забезпечує універсальну доступність даних.
- Краща якість даних: В цілому ви отримуєте кращу якість даних за допомогою озер даних завдяки технологічним перевагам, таким як зберігання даних у власному форматі, масштабованість, універсальність, гнучкість схем, підтримка SQL та інших мов та вдосконалена аналітика.
Виклики та ризики
Озера даних дають масу переваг. Але так, є також кілька викликів та ризиків, пов’язаних з ними, які організація повинна вирішити ретельно.
Вони є:
- Якщо їх неправильно розробити, вони можуть перетворитися на болота даних. Іноді організації просто перестають зливати необмежені дані в ці озера, не маючи на увазі жодної стратегії та цілей.
- Часом аналітики, які хочуть використовувати дані, не знають, як це робити, оскільки виконувати видобуток в озерах даних досить складно. Таким чином, вони втрачають актуальність та імпульс через деякий час. Організаціям потрібно працювати над усуненням цього бар'єру для аналітиків.
- Оскільки у нас є багато неорганізованих даних в озерах даних, вони не є свіжими або актуальними для використання у виробництві. Отже, дані в цих озерах залишаються в пілотному режимі і ніколи не передаються на виробництво.
- Неструктуровані дані можуть призвести до непридатності даних.
- Іноді організації відчувають, що це не робить значного впливу на бізнес щодо вкладених інвестицій. Для цього потрібна зміна мислення. Щоб наслідки мали місце, компаніям слід заохочувати менеджерів та керівників приймати рішення на основі аналітики, отриманої з цих резервуарів даних.
- Безпека та контроль доступу також є одним із ризиків під час роботи з ними. Деякі дані, які можуть вимагати конфіденційності та регулювання, потрапляють в озера даних без будь-якого нагляду.
Впровадження
На підприємстві цілком розумно здійснювати реалізацію озера даних гнучко.
Тобто, спочатку впровадити Data Lake MVP отримує його на тестуванні користувачами щодо якості, простоти доступу, зберігання та аналітичних можливостей, отримує зворотний зв’язок, а потім додає складні вимоги та функції для додавання вартості Lake.
Як правило, організація проходить наступні чотири основні етапи впровадження:
(зображення джерело )
Етап 1:
Основне озеро даних: На цьому етапі команда зупиняється на базовій архітектурі, технології (на базі хмари або застарілої) та практиці безпеки та управління для озера даних. Він спроможний зберігати всі вихідні дані, що надходять з різних корпоративних джерел, та поєднувати внутрішні та зовнішні дані для отримання збагаченої інформації.
Етап 2:
Пісочниця: Покращення аналітичних можливостей: На цьому етапі дослідники даних отримують доступ до резервуару даних для проведення попередніх експериментів з використанням необроблених даних та розробки аналітичних моделей для задоволення потреб бізнесу.
Етап 3:
що таке файл .7z?
Сховища даних та співпраця в озері даних: На цьому етапі організація починає використовувати озеро даних у взаємодії з існуючими сховищами даних. Дані з низьким пріоритетом надсилаються їм, щоб обмеження зберігання сховищ даних не перевищило.
Він представляє перспективу отримати статистичні дані з холодних даних або запитати його, щоб виявити інформацію, яка не індексується звичайними базами даних.
Етап 4:
Наскрізне прийняття озера даних: Це останній етап набуття зрілості, на якому він перетворюється на ключовий елемент архітектури даних організації та ефективно керує пошуковою операцією. До цього часу озеро даних замінило б ЕДВ, і вони стали єдиним джерелом усіх корпоративних даних.
За допомогою озера даних організація може зробити наступне:
- Створюйте комплексні рішення для моделювання даних та аналітики для різних потреб бізнесу.
- Створюйте інтерактивні інформаційні панелі, які консолідують розуміння з озера даних, а також різні додатки та джерела даних.
- Впроваджуйте передові програми аналітики або робототехніки, оскільки вони обробляють обчислювальні операції.
На цей момент вона також має суворі заходи безпеки та управління.
Постачальники озера даних
У галузі є різні постачальники, що надають інструменти для озеро даних.
(зображення джерело )
Якщо поглянути на великі компанії:
- Обчислення пропонує інтелектуальний інструмент озера даних. BDM (Big Data Management) 10.2.2 є останньою доступною версією.
- Є постачальник, який називається шукач який також надає інструмент.
- Компанія Таленд який популярний серед їх інструментів ETL, також пропонує інструмент Data Lake.
- Тоді ми маємо інструмент з відкритим кодом Кайло від Терадата компанії. Команда під назвою „Думай великим” у компанії Teradata розробила цей інструмент.
- Компанія Дані бочки Inc також надає ці послуги.
- Від Microsoft , ви можете знайти Блакитне озеро даних доступні в галузі.
- Hvr-програмне забезпечення також надає рішення для консолідації озер даних.
- Дані про подіум, компанія Qlik пропонує інструментальну продукцію, таку як трубопроводи для озер даних, багатозонне озеро для даних.
- Сніжинка також має дані даних озера.
- Залоні - це компанія з озера даних, яка обробляє величезні дані за допомогою Big Data.
Отже, всі вони є популярними постачальниками послуг, а також постачальниками таких інструментів.
Якщо ви шукаєте практики та набуття знань про озера даних, тоді ви можете піти на Informatica або Kylo. Якщо ви шукаєте хмарну послугу, тоді ви можете вибрати Looker, Informatica та Talend. Ці три постачальники забезпечують хмарні озера даних AWS. Ви також можете отримати 1-місячну безкоштовну пробну версію від Kylo.
Висновок
У цьому посібнику ми детально обговорили концепцію озера даних. Ми пройшли основну ідею озера даних, його архітектуру, ключові характеристики, переваги, а також його приклади, випадки використання тощо.
Ми також побачили, як озеро даних відрізняється від сховища даних. Ми також охопили найкращих постачальників, що надають супутні послуги.
Щасливого читання !!
Рекомендована література
- Підручник з тестування сховища даних із прикладами Посібник з тестування ETL
- 10 найкращих інструментів тестування та перевірки структурованих даних для SEO
- Видобуток даних: процес, методи та основні проблеми аналізу даних
- Підручник з Data Mart - типи, приклади та реалізація Data Mart
- Топ-10 популярних засобів зберігання даних та технології тестування
- Вимірна модель даних у сховищі даних - Підручник із прикладами
- 10+ найкращих інструментів збору даних із стратегіями збору даних
- Функція пулу даних в IBM Rational Quality Manager для управління тестовими даними