apache hadoop yarn tutorial
Компоненти Hadoop - MapReduce With Hadoop YARN:
У нашому попередньому навчальному посібнику з компонента Hadoop ми дізналися про Hadoop MapReduce та його механізм обробки, такі як INPUT, SPLITTING, MAPPING, SHUFFLING, REDUCING та FINAL RESULT.
У цьому підручнику ми розглянемо:
- Як Map Reduce працює з YARN?
- Процес застосування Hadoop YARN.
=> Погляньте на посібник для початківців BigData тут.
Що ви дізнаєтесь:
Зменшення карти за допомогою Hadoop YARN
Давайте розберемося, як MapReduce використовує YARN для виконання завдань через кластер Hadoop. Але перед тим, як продовжити, перше, що виникає у нас в голові, це яка повна форма Пряжі? Або що означає YARN?
Пряжа засоби Ще один переговірник про ресурси.
Саме вона розподіляє ресурси для різних завдань, які потрібно виконувати в кластері Hadoop. Він був представлений в Hadoop 2.0.
До Hadoop 1.0 MapReduce був єдиним фреймворком або єдиним процесором, який може виконуватися через кластер Hadoop. Однак у Hadoop 2.0 YARN була представлена і, використовуючи це, ми можемо вийти за межі MapReduce.
Як ви можете бачити на схемі, у нас є HDFS внизу між ними, ми отримали YARN і, використовуючи YARN, багато фреймворків можуть підключати та використовувати HDFS. Отже, навіть MapReduce використовується для підключення за допомогою YARN для запиту Ресурсів, і лише тоді він може виконати Завдання через HDFS, тобто кластер Hadoop.
Аналогічно; SPARK, STORM та інші пошукові системи можуть підключатися до HDFS. HBase, яка не є базою даних SQL, також може її підключити. Тож додатки HDFS стали величезними, лише тому, що YARN зміг відкрити Шлюз для інших фреймворків та інших інструментів аналітики Bigdata.
У чому різниця між MapReduce Version1 (MRv1) та MapReduce Version2 (MRv2)?
MRv1, по суті, був частиною Hadoop framework 1, а з Hadoop 2 YARN з'явилася картина, і MapReduce було оновлено до MRv2 з декількома змінами в класах. Класи були оновлені, однак синтаксис написання програми MapReduce залишається незмінним.
У цьому випадку MapReduce тепер з'єднується з YARN для осі HDFS.
Поряд з YARN, Resource Manager і Node Manager - це нові демони, які були введені в кластер Hadoop.
Раніше це був Job Tracker та Task Tracker. Однак їх було видалено з Hadoop 2.0, а Resource Manager і Node Manager були введені разом з YARN у фреймворк Hadoop.
Hadoop 2.x Демони
Давайте швидко розглянемо нещодавно представлені демони в Hadoop 2.0, які запускають компоненти, тобто зберігання та обробка.
реалізація стеку в c ++ за допомогою масиву
У навчальному посібнику HDFS ми детально зрозуміли демон, тобто NameNode та DataNode. У цьому посібнику ми розберемося, як Менеджер ресурсів та Менеджер вузлів працюють у кластері Hadoop 2.x для управління обробкою та завданнями, які потрібно виконувати в кластері Hadoop.
Отже, що таке Менеджер ресурсів? Менеджер ресурсів - це головні демони, які працюють на головній машині або NameNode, яка є висококласною машиною. З іншого боку, Node Manager - це демон, який працює на підпорядкованих машинах або на DataNodes або разом із процесом DataNode.
Hadoop 2.x MapReduce Пряжа Компоненти
Давайте розглянемо інші компоненти Пряжі нижче.
- Клієнт: Це блок, який подає робочий інтерфейс командного рядка (CLI), і клієнт може бути додатком JAVA.
- Менеджер ресурсів: Це головний демон, на який усі завдання подаються від Клієнта, і він виділяє всі ресурси кластерного рівня для виконання певної роботи. Він працює на висококласній машині, яка має якісне обладнання та хорошу конфігурацію, оскільки саме головна машина повинна керувати всім, що відбувається над кластером.
- Диспетчер вузлів : Це підлеглий демон, який працює на підпорядкованих машинах або на DataNode, тому на кожній підпорядкованій машині працює менеджер вузлів. Він відстежує ресурси певного вузла даних, Менеджер ресурсів управляє ресурсами кластера, а менеджер вузлів - ресурсами Вузол даних.
- Сервер історії роботи: Це одиниця для відстеження всіх завдань, які були виконані за кластером або були подані в кластер. Він також відслідковує статус, а також зберігає файли журналів кожного виконання, що відбулося в кластері Hadoop.
- Майстер додатків : Це компонент, який виконується через Node Machine, Slave Machine і створюється менеджером ресурсів для виконання та управління роботою. Це той, який узгоджує ресурси з Менеджера ресурсів і, нарешті, узгоджує з Менеджером вузлів виконання завдання.
- Контейнер: Він створюється самим менеджером вузлів, який був призначений менеджером ресурсів, і всі завдання, нарешті, виконуються в контейнері.
Пряжа робочий процес
Як показано на наведеній вище схемі, існує Менеджер ресурсів до якого подаються всі Вакансії, і є Кластер, в якому є Ведені Машини, і на кожній Веденій Машині є Диспетчер вузлів біг.
Менеджер ресурсів має дві складові, тобто Планувальник і Менеджер програм.
У чому різниця між Master Master та Application Manager?
Менеджер програм є компонентом Менеджер ресурсів що гарантує виконання кожного завдання та Майстер додатків для нього створено. Майстер додатків, з іншого боку, це той, хто виконує завдання та запитує всі ресурси, які потрібно виконати.
Скажімо, роботу подано до Менеджер ресурсів , як тільки робота буде подана, Планувальник планує роботу. Одного разу Планувальник планує роботу, яку потрібно виконати Менеджер програм створить a Контейнер в одному з Вузли даних , і в межах цього Контейнер, Майстер додатків буде розпочато.
Це Майстер додатків потім зареєструється в Менеджер ресурсів і запит на Контейнер для виконання завдання. Як тільки Контейнер виділяється, Майстер додатків тепер буде пов'язано з Диспетчер вузлів і запит на запуск Контейнер .
Як бачимо, Майстер додатків отримав виділення до Вузли даних D і Є , а тепер це Майстер додатків запитав Диспетчер вузлів для запуску Контейнери з Вузол даних D і Вузол даних E .
Як тільки Контейнери були запущені, Майстер додатків виконає завдання в Контейнер і результат буде відправлений назад до Клієнт .
Потік програми
Давайте зрозуміємо це трохи послідовно.
На діаграмі нижче ми маємо чотири компоненти. Перший - це Клієнт, другий - Менеджер ресурсів , третій - Диспетчер вузлів а четвертий рядок містить Майстер додатків .
Тож давайте подивимося, як ці кроки виконуються між ними.
Найпершим кроком є Клієнт хто подає роботу до Менеджер ресурсів , на другому кроці Менеджер ресурсів виділяє a Контейнер для запуску Майстер додатків на Рабські машини ; третім кроком є Майстер додатків реєструється в Менеджер ресурсів .
Як тільки він реєструється, він запитує Контейнер виконати завдання, тобто четвертий крок. На п'ятому кроці Майстер додатків повідомляє Диспетчер вузлів на якому Контейнер потрібно запустити.
На шостому кроці один раз Диспетчер вузлів запустив Контейнери, Майстер додатків буде виконувати код всередині них Контейнери .
Нарешті, на сьомому кроці, Клієнт контактів Менеджер ресурсів або Майстер додатків для моніторингу стану програми.
Зрештою, Майстер додатків відмінить себе від Менеджер ресурсів і результат повертається до Клієнт . Отже, це один простий послідовний потік того, як виконується програма MapReduce за допомогою фреймворку YARN.
Висновок
Отже, у цьому підручнику ми дізналися наступні вказівки:
- Пряжа засоби Ще один переговірник про ресурси.
- Пряжа була представлена в Hadoop 2.0
- Менеджер ресурсів та менеджер вузлів були введені разом із YARN у структуру Hadoop.
- Компоненти YARN, такі як клієнт, менеджер ресурсів, менеджер вузлів, сервер історії завдань, майстер додатків та контейнер.
У наступному посібнику ми обговоримо методи тестування BigData та проблеми, з якими стикається BigData Testing. Ми також дізнаємось, як подолати ці виклики та будь-які обхідні способи спрощення тестування BigData.
=> Завітайте сюди, щоб дізнатися великі дані з нуля.
Рекомендована література
- Що таке Hadoop? Підручник Apache Hadoop для початківців
- 20+ підручників MongoDB для початківців: Безкоштовний курс MongoDB
- Поглиблені підручники Eclipse для початківців
- Підручник з Python для початківців (практичне БЕЗКОШТОВНЕ навчання з Python)
- Підручник з великих даних для початківців | Що таке великі дані?
- Підручник LoadRunner для початківців (безкоштовний 8-денний поглиблений курс)
- Підручник з Hadoop MapReduce з прикладами | Що таке MapReduce?
- Найкращий БЕЗКОШТОВНИЙ підручник з C #: Остаточний посібник для C # для початківців