top 32 best datastage interview questions
Список найбільш часто задаваних запитань та відповідей на інтерв’ю на етапі обробки даних, які допоможуть вам підготуватися до майбутнього співбесіди:
DataStage - це дуже популярний інструмент ETL, який був доступний на сучасному ринку.
У цій статті я ділюсь набором дуже корисних запитань-відповідей, призначених для інтерв’ю IBM Datastage. Якщо ви пройдете нижче запитання щодо інтерв’ю Datastage, вам буде легше зламати інтерв’ю.
Ми розглянули детальні відповіді на запитання щодо інтерв’ю Datastage, які будуть корисними для досвідчених фахівців.
Рекомендована література => Запитання для співбесіди для тестування ETL
Найпоширеніші запитання та відповіді на інтерв’ю на етапі обробки даних
Давайте розпочнемо!
Q # 1) Що таке Datastage?
Відповіді: Datastage - це Інструмент ETL дається IBM який використовує графічний інтерфейс для розробки рішень для інтеграції даних. Це був перший інструмент ETL, який дав концепцію паралелізму.
Він доступний у наступних 3 різних виданнях
- Серверне видання
- Enterprise Edition
- Видання MVS
Q # 2) Виділіть основні особливості Datastage?
Відповіді: Основні особливості Datastage виділено нижче:
- Це компонент інтеграції даних інформаційного сервера IBM Infosphere.
- Це інструмент на основі графічного інтерфейсу. Нам просто потрібно перетягнути об’єкти Datastage, і ми можемо перетворити їх у код Datastage.
- Використовується для виконання операцій ETL (Витяг, Перетворення, Навантаження)
- Він забезпечує одночасне підключення до декількох джерел та кількох цілей
- Він забезпечує розділення та паралельні методи обробки, які дозволяють завданням Datastage обробляти величезний обсяг даних досить швидко.
- Він має зв’язок на рівні підприємства.
Запитання №3) Якими основними способами користується інструмент Datastage?
Відповіді: Datastage - це інструмент ETL, який в основному використовується для вилучення даних із вихідних систем, перетворення цих даних і остаточного завантаження їх у цільові системи.
Q # 4) Які основні відмінності ви спостерігали між версіями DataStage 7.x та 8.x?
Відповіді: Ось - це основні відмінності між обома версіями
7.x | 8.x |
---|---|
Версія 7.x залежала від платформи | Ця версія не залежить від платформи |
Він має дворівневу архітектуру, де етап даних будується поверх сервера Unix | Він має трирівневу архітектуру, де ми маємо базу даних сервера UNIX внизу, а потім базу даних XMETA, яка виконує роль сховища, а потім у нас є етап даних зверху. |
Не існує поняття набору параметрів | У нас є набори параметрів, які можна використовувати в будь-якому місці проекту. |
У нас були дизайнер та менеджер як два окремі клієнти | У цій версії клієнт-менеджер був об’єднаний у клієнта-дизайнера |
Довелося вручну шукати роботу в цій версії | Тут ми маємо опцію швидкого пошуку в сховищі, де ми можемо легко шукати роботу. |
Q # 5) Чи можете ви виділити основні особливості інформаційного сервера IBM Infosphere?
Відповіді: Основними особливостями набору інформаційних серверів IBM Infosphere є:
ініціалізація статичної змінної c ++
- Він забезпечує єдину платформу для інтеграції даних. Він має можливість підключатися до декількох вихідних систем, а також писати до декількох цільових систем.
- Він базується на централізованих шарах. Усі компоненти набору можуть мати спільну базову архітектуру набору.
- Він має рівні для уніфікованого сховища, для інтегрованих служб метаданих та загальний паралельний механізм.
- Він забезпечує інструменти для аналізу, очищення, моніторингу, трансформації та доставки даних.
- Він має паралельно можливості паралельної обробки. Виявляється, обробка дуже швидка.
Q # 6) Які різні рівні в архітектурі інформаційного сервера?
Відповіді: Нижче наведені різні рівні архітектури інформаційного сервера
- Уніфікований користувальницький інтерфейс
- Загальні послуги
- Уніфікована паралельна обробка
- Уніфіковані метадані
- Спільне підключення
Q # 7) Що може бути системою джерела даних?
Відповіді: Це може бути таблиця бази даних, плоский файл або навіть зовнішній додаток, такий як люди, які працюють м'яко.
Q # 8) Над яким інтерфейсом ви будете працювати як розробник?
Відповіді: Як розробник Datastage, ми працюємо над клієнтським інтерфейсом Datastage, який відомий як конструктор Datastage, який потрібно встановити в локальній системі. У серверній системі він підключений до сервера Datastage.
Q # 9) Які різні поширені служби в Datastage?
Відповіді: Нижче наведено перелік поширених служб у Datastage:
- Послуги метаданих
- Розгортання єдиної служби
- Служби безпеки
- Циклічні та звітні послуги.
Q # 10) Як розпочати розробку проекту Datastage?
Відповіді: Найпершим кроком є створення завдання Datastage на сервері Datastage. Усі створені нами об'єкти Datastage зберігаються у проекті Datastage. Проект Datastage - це окреме середовище на сервері для завдань, таблиць, визначень та процедур.
Проект Datastage - це окреме середовище на сервері для завдань, таблиць, визначень та процедур.
Q # 11) Що таке робота DataStage?
Відповіді: Завдання Datastage - це просто код DataStage, який ми створюємо як розробник. Він містить різні етапи, пов’язані між собою для визначення даних та потоку процесів.
Етапи - це не що інше, як функції, які впроваджуються.
Наприклад: Припустимо, що я хочу скласти суму суми продажів. Це може бути операція «групування», яка виконується за один етап.
Тепер я хочу записати результат у цільовий файл. Отже, цю операцію буде виконувати інший етап. Після того, як я визначив обидва етапи, мені потрібно визначити потік даних від мого етапу «групування» до етапу цільового файлу. Цей потік даних визначається за допомогою посилань DataStage.
Після того, як я визначив обидва етапи, мені потрібно визначити потік даних від мого етапу «групування» до етапу цільового файлу. Цей потік даних визначається за допомогою посилань DataStage.
Q # 12) Що таке послідовності DataStage?
Відповіді: Послідовність етапу даних з'єднує завдання DataStage в логічному потоці.
Q # 13) Якщо ви хочете використовувати один і той же фрагмент коду в різних роботах, як ви цього досягнете?
Відповіді: Це можна зробити за допомогою спільних контейнерів. Ми розділили контейнери для повторного використання. Спільний контейнер - це багаторазовий елемент завдання, що складається з етапів та посилань. Ми можемо викликати спільний контейнер у різних завданнях Datastage.
Q # 14) Де зберігаються завдання Datastage?
Відповіді: Завдання Datastage зберігаються у сховищі. У нас є різні папки, в яких ми можемо зберігати завдання Datastage.
Q # 15) Де ви бачите різні етапи у дизайнера?
Відповіді: Усі етапи доступні у вікні, що називається ' Палітра ' . Він має різні категорії залежно від типу функції, яку забезпечує сцена.
Різні категорії етапів у палітрі - Загальний, Якість даних, База даних, Розробка, Файл, Обробка тощо.
Q # 16) Які етапи обробки?
Відповіді: Етапи обробки дозволяють застосувати фактичне перетворення даних.
Наприклад , ' стадія агрегатора за категорією «Обробка» дозволяє застосувати всі операції «групувати». Подібним чином, у нас є інші етапи обробки, такі як етап «Приєднання», який дозволяє об’єднувати дані, що надходять із двох різних вхідних потоків.
Q # 17) Які кроки необхідні для створення простого базового завдання Datastage?
Відповіді: Клацніть на Файл -> Клацніть на Створити -> Виберіть паралельне завдання та натисніть Ok. Відкриється паралельне вікно роботи. У цій паралельній роботі ми можемо складати різні етапи та визначати потік даних між ними. Найпростіша робота DataStage - це робота ETL.
Для цього нам спочатку потрібно витягти дані із вихідної системи, для якої ми можемо використовувати або стадію файлу, або стадію бази даних, оскільки моєю вихідною системою може бути таблиця бази даних або файл.
Припустимо, ми читаємо дані з текстового файлу. У цьому випадку ми перетягнемо етап «Послідовний файл» до паралельного вікна завдання. Тепер нам потрібно виконати деяке перетворення поверх цих даних. Ми використаємо стадію «Трансформатор», яка доступна в категорії «Обробка». Ми можемо написати будь-яку логіку під стадією трансформатора.
Нарешті, нам потрібно завантажити оброблені дані в якусь цільову таблицю. Скажімо, моєю цільовою базою даних є DB2. Отже, для цього ми оберемо етап з'єднувача DB2. Тоді ми будемо підключати ці стани даних за допомогою послідовних посилань.
Після цього , нам потрібно налаштувати етапи так, щоб вони вказували на правильну файлову систему або базу даних.
Наприклад, На етапі послідовного файлу нам потрібно визначити обов’язкові параметри, такі як ім’я файлу, розташування файлу, метадані стовпця.
Потім нам потрібно скласти завдання Datastage. Компіляція перевіряє завдання на синтаксис завдання і створює виконуваний файл для завдання Datastage, який можна виконати під час виконання.
Q # 18) Назвіть різні методи сортування в Datastage.
Відповіді: Доступні два методи:
- Сортування посилань
- Сортування вбудованого етапу даних
найкраще програмне забезпечення для приховування ip адреси
Q # 19) У пакеті, якщо між ними не вдається виконати завдання, і ви хочете перезапустити пакет із цього конкретного завдання, а не з нуля, тоді що ви будете робити?
Відповіді: У Datastage є параметр у послідовності завдань - ‘Додайте контрольні точки, щоб послідовність могла перезапускатися у разі помилки’ . Якщо цей параметр позначений, то ми можемо повторити послідовність завдань з того місця, де він не вдався.
Питання 20) Як імпортувати та експортувати завдання Datastage?
Відповіді: F або це, нижче функцій командного рядка для цього
- Імпорт: dsimport.exe
- Експорт: dsexport.exe
Питання # 21) Що таке підпрограми в Datastage? Запишіть різні типи процедур.
Відповіді: рутинні - це набір функцій, визначених менеджером DS. Він проходить через ступінь трансформатора.
Існує 3 види процедур:
- Паралельні процедури
- Процедури мейнфреймів
- Серверні підпрограми
Q # 22) Як видалити повторювані значення в DataStage?
Відповіді: Існує два способи обробки повторюваних значень
- Ми можемо використовувати стадію видалення дублікатів для усунення дублікатів.
- Ми можемо використовувати етап сортування для видалення дублікатів. Етап сортування має властивість, що називається «дозволити дублікати». Ми не отримаємо повторюваних значень у результатах сортування при встановленні цієї властивості рівною false.
Q # 23) Які різні види представлення доступні в режимі Datastage?
Відповіді: У режимі Datastage доступні 3 види подань. Вони є:
- Перегляд журналу
- Перегляд стану
- Перегляд роботи
Q # 24) Розрізняйте Informatica та Datastage. Якого б ви вибрали і чому?
Відповіді: І Informatica, і DataStage є потужними інструментами ETL.
Зараховані бали розрізняють обидва інструменти:
Обчислення | Етап даних | |
---|---|---|
Паралельна обробка | Informatica не підтримує паралельну обробку. | На відміну від цього, datastage забезпечує механізм паралельної обробки. |
Впровадження SCD | Досить просто впровадити SCD (повільно змінюються розміри) в Informatica. | Однак складно впроваджувати SCD у етапі даних. Datastage підтримує SCD лише за допомогою власних сценаріїв. |
Контроль версій | Informatica підтримує контроль версій за допомогою реєстрації та виїзду з об'єктів. | Однак у нас ця функція недоступна на етапі обробки даних. |
Доступні трансформації | Доступні менші трансформації. | Datastage пропонує більше різноманітних перетворень, ніж Informatica. |
Потужність пошуку | Informatica забезпечує дуже потужний динамічний пошук кешу | У нас немає подібних речей на етапі обробки даних. |
На мою особисту думку, я хотів би піти з Informatica через Datastage. Причиною тому, що я вважаю Informatica більш систематизованою та зручною для користувачів, ніж DataStage.
Ще однією вагомою причиною є те, що налагодження та обробка помилок набагато краща в Informatica порівняно з Datastage. Отже, виправлення проблем стає простішим в Informatica. Datastage не забезпечує повну підтримку обробки помилок.
=> Хочете дізнатись більше про Informatica? Ми маємо детальне пояснення тут.
Q # 25) Дайте уявлення про системні змінні.
Відповіді: Системні змінні - це змінні лише для читання, що починаються з „@“ які можуть бути прочитані або ступенем трансформатора, або рутиною. Вони використовуються для отримання системної інформації.
Q # 26) Яка різниця між пасивною стадією та активною стадією?
Відповіді: Пасивні ступені використовуються для видобутку та завантаження, тоді як активні ступені використовуються для трансформації.
Q # 27) Які різні види контейнерів доступні в Datastage?
Відповіді: У нас на Datastage є менше 2 контейнерів:
- Місцевий контейнер
- Спільний контейнер
Q # 28) Чи тимчасово чи постійно зберігається значення проміжної змінної?
Відповіді: Тимчасово. Це тимчасова змінна.
Q # 29) Які існують різні типи завдань у Datastage?
Відповіді: У нас є два типи роботи в Datastage:
- Завдання сервера (вони виконуються послідовно)
- Паралельні завдання (вони виконуються паралельно)
Q # 30) Яка користь від директора Datastage?
Відповіді: За допомогою директора Datastage ми можемо запланувати роботу, перевірити роботу, виконати роботу та контролювати роботу.
Q # 31) Які існують різні типи хеш-файлу?
Відповіді: У нас є 2 типи хеш-файлів:
- Статичний хеш-файл
- Динамічний хеш-файл
Q # 32) Що таке етап якості?
Відповіді: Етап якості (також званий стадією цілісності) - це етап, який допомагає поєднувати дані разом із різних джерел.
Висновок
Ви повинні мати зручні знання про архітектуру Datastage, її основні особливості, і ви повинні мати можливість пояснити, чим вона відрізняється від деяких інших популярних інструментів ETL.
Додатково , ви повинні мати чітке уявлення про різні етапи та їх використання, наскрізний спосіб створення завдання Datastage та його запуску.
Рекомендована література => Що таке тестування ETL?
питання тестування та відповіді для досвідчених
Всього найкращого!
Рекомендована література
- Запитання та відповіді на інтерв’ю для тестування ETL
- 10 найкращих інструментів картографування даних, корисних у процесі ETL (2021 СПИСОК)
- 15 найкращих інструментів ETL у 2021 році (повний оновлений список)
- Підручник з тестування сховища даних із прикладами Посібник з тестування ETL
- Підручник з тестування сховища даних ETL (повний посібник)
- Тестування ETL проти БД - пильніший погляд на необхідність тестування ETL, планування та інструменти ETL
- Як проводити тестування ETL за допомогою інструменту Informatica PowerCenter
- Метадані у сховищі даних (ETL), пояснені на прикладах
- Прес-реліз - iCEDQ, випуск нової версії платформи тестування ETL та тестування міграції даних
- 10 найкращих засобів тестування ETL у 2021 році
- Що таке процес ETL (витяг, перетворення, завантаження) у сховищі даних?