top 29 data engineer interview questions
Список найбільш часто задаваних запитань та відповідей співбесіди інженера даних, які допоможуть вам підготуватися до майбутнього співбесіди:
Сьогодні інженерія даних є найбільш затребуваною галуззю після розробки програмного забезпечення, і вона стала одним із найбільш швидкозростаючих варіантів роботи у світі. Інтерв'юери хочуть найкращих інженерів даних для своєї команди, і тому вони схильні ретельно опитувати кандидатів. Вони шукають певних навичок та знань. Отже, ви повинні бути готовими відповідно відповідати їхнім очікуванням.
Що ви дізнаєтесь:
- Обов'язки інженера даних
- Навички інженера даних
- Найчастіші запитання співбесіди інженера даних
- Висновок
Обов'язки інженера даних
До обов'язків входить:
- Обробляти та контролювати дані в межах компанії.
- Підтримуйте та обробляйте вихідну систему даних та інтерактивні області.
- Спростіть очищення даних разом із подальшим побудовою та покращенням скорочення даних.
- Зробіть доступними та виконайте як перетворення даних, так і процес ETL.
- Витяг та створення спеціальної побудови запитів даних.
Навички інженера даних
Для кваліфікації вам потрібні також певні навички. Вони обидва мають вирішальне значення, коли ви готуєтесь до посади інженера даних. Тут ми перерахуємо 5 найкращих навичок, не в певному порядку, які вам знадобляться, щоб стати успішним інженером даних.
- Навички візуалізації даних.
- Python та SQL.
- Знання з моделювання даних як для великих даних, так і для зберігання даних
- Математика
- Ноу-хау з ETL
- Великий досвід простору даних
Отже, вам слід попрацювати над вдосконаленням цих наборів навичок, перш ніж розпочати підготовку до співбесіди. А коли ви вдосконалите свої навички, ось кілька питань для співбесіди, які ви можете підготувати, щоб інтерв’юери помітили про вас і найняли вас також.
Найчастіші запитання співбесіди інженера даних
Загальні питання співбесіди
Q # 1) Чому ви вивчали інженерію даних?
Відповідь: Це питання має на меті дізнатись про вашу освіту, досвід роботи та досвід. Можливо, це був закономірний вибір у продовженні вашого ступеня інформаційних систем або інформатики. Або, можливо, ви працювали в подібній галузі, або, можливо, переходите з зовсім іншої робочої області.
Якою б не була ваша історія, не стримуйтесь і не цурайтесь. І поки ви ділитесь, продовжуйте виділяти навички, які ви засвоїли в дорозі, і чудову роботу, яку ви зробили.
Однак не починайте розповідати історії. Почніть із свого освітнього досвіду, а потім перейдіть до тієї частини, коли ви знали, що хочете стати інженером даних. А потім рухайтеся далі, як ви добираєтесь сюди.
Q # 2) Що найскладніше в тому, щоб бути інженером даних, як ви вважаєте?
Відповідь: Ви повинні чесно відповісти на це питання. Не кожен аспект усіх робіт є простим, і ваш інтерв'юер це знає. Мета цього запитання не визначити свою слабкість, а знати, як ви працюєте з речами, з якими вам важко мати справу.
Ви можете сказати щось на зразок: «Як інженеру даних мені важко виконати запит усіх підрозділів компанії, де більшість із них часто висувають суперечливі вимоги. Тому мені часто важко збалансувати їх відповідно.
Але це дало мені цінну інформацію про роботу відділів та роль, яку вони відіграють у загальній структурі компанії '. І це лише один приклад. Ви можете і повинні висловити свою точку зору.
Запитання №3) Розкажіть нам про інцидент, коли ви мали збирати дані з різних джерел, але зіткнулися з несподіваними проблемами, і як ви їх вирішили?
Відповідь: Це запитання - можливість для вас продемонструвати свої навички вирішення проблем та спосіб адаптації до раптових змін плану. Питання може бути розглянуто загалом або конкретно з контекстом інженерії даних. Якщо ви ще не пережили такого досвіду, ви можете дати гіпотетичну відповідь.
Ось зразок відповіді: «У моїй попередній франчайзинговій компанії я та моя команда повинні були збирати дані з різних місць та систем. Але одна з франшиз змінила свою систему без попереднього повідомлення. Це призвело до декількох питань для збору та обробки даних.
Щоб це вирішити, нам спочатку довелося швидко знайти короткострокове рішення для надходження основних даних у систему компанії. І після цього ми розробили довготермінове рішення, щоб запобігти повторенню таких питань ”.
Q # 4) Чим робота інженера даних відрізняється від роботи архітектора даних?
Відповідь: Це питання має на меті перевірити, чи розумієте ви, що в команді сховища даних існують відмінності. Ви не можете помилитися з відповіддю. Обов'язки обох збігаються або варіюються залежно від того, що потрібно відділу обслуговування баз даних або компанії.
Ви можете сказати, що “згідно з моїм досвідом, різниця між ролями інженера даних та архітектора даних залежить від компанії. Незважаючи на те, що вони дуже тісно співпрацюють, існують відмінності в їх загальних обов’язках.
Управління серверами та побудова архітектури системи даних компанії відповідає архітектор даних. А робота інженера даних полягає у тестуванні та підтримці цієї архітектури. Поряд з цим ми, інженери даних, переконуємось, що дані, які надаються аналітикам, є якісними та надійними ».
Запитання щодо технічного інтерв’ю
Q # 5) Що таке чотири V великих даних?
(зображення джерело )
Відповідь:
Чотири V великих даних:
- Перший V є Швидкість що відноситься до швидкості, з якою з часом генеруються великі дані. Отже, це можна розглядати як аналіз даних.
- Другий V - це Різноманітність різних форм великих даних, будь то зображення, файли журналів, медіафайли та голосові записи.
- Третій V - це Гучність даних. Це може бути кількість користувачів, кількість таблиць, розмір даних або кількість записів.
- Четвертий V є Правдивість пов'язані з невизначеністю або визначеністю даних. Іншими словами, він вирішує, наскільки ви можете бути впевнені в точності даних.
Q # 6) Чим структуровані дані відрізняються від неструктурованих даних?
Відповідь: У наведеній нижче таблиці пояснюються відмінності:
Структуровані дані | Неструктуровані дані | |
---|---|---|
7) | Зведені дані містяться в одному вимірі. | Дані поділяються на різні таблиці вимірів. |
1) | Його можна зберігати в MS Access, Oracle, SQL Server та інших подібних традиційних системах баз даних. | Його не можна зберігати в традиційній системі баз даних. |
два) | Його можна зберігати в різних стовпцях і рядках. | Його не можна зберігати в рядках і стовпцях. |
3) | Прикладом структурованих даних є транзакції онлайн-додатків. | Прикладами неструктурованих даних є твіти, пошуки в Google, вподобання на Facebook тощо. |
4) | Це можна легко визначити в рамках моделі даних. | Його неможливо визначити відповідно до моделі даних. |
5) | Він поставляється з фіксованим розміром та вмістом. | Він буває різних розмірів та змісту. |
Q # 7) Які інструменти ETL вам знайомі?
Відповідь: Назвіть усі інструменти ETL, з якими ви працювали. Ви можете сказати: «Я працював із SAS Data Management, IBM Infosphere та SAP Data Services. Але мені більше подобається PowerCenter від Informatica. Він ефективний, має надзвичайно високу продуктивність і є гнучким. Коротше кажучи, він має всі важливі властивості хорошого інструменту ETL.
Вони безперебійно ведуть операції з діловими даними та гарантують доступ до даних, навіть якщо в бізнесі чи його структурі відбуваються зміни ». Обов’язково говоріть лише про тих, з ким ви працювали, і тих, з ким вам подобається працювати. Або це може завадити ваше інтерв’ю пізніше.
Q # 8) Розкажіть про схеми проектування моделювання даних.
Відповідь: Моделювання даних складається з двох типів схем проектування.
Вони пояснюються наступним чином:
- Перший - це Розклад зірок , яка розділена на дві частини - таблицю фактів та таблицю розмірів. Тут обидві таблиці пов’язані. Зіркова схема - це найпростіший стиль схеми даних, і до неї також застосовують найбільш широко. Він названий так тому, що за своєю структурою нагадує зірку.
- Другий - Сніжинка схема що є розширенням схеми зірок. Він додає додаткові розміри і називається сніжинка, оскільки за своєю структурою нагадує структуру сніжинки.
Q # 9) Яка різниця між схемою Зірка та Сніжинка?
(зображення джерело )
Відповідь: У наведеній нижче таблиці пояснюються відмінності:
Розклад зірок | Схема сніжинки | |
---|---|---|
1) | Таблиця розмірів містить ієрархії розмірів. | Існують окремі таблиці для ієрархій. |
два) | Тут таблиці розмірів оточують таблицю фактів. | Таблиці розмірів оточують таблицю фактів, а потім вони оточуються таблицями розмірів. |
3) | Таблиця фактів та будь-яка таблиця вимірів з'єднані лише одним з'єднанням. | Щоб отримати дані, потрібно багато об’єднань. |
4) | Він поставляється з простим дизайном БД. | Він має складну конструкцію БД. |
5) | Добре працює навіть з денормалізованими запитами та структурами даних. | Працює лише з нормалізованою структурою даних. |
6) | Надмірність даних - висока. | Надмірність даних - дуже низька. |
8) | Швидша обробка куба. | Складне з'єднання уповільнює обробку куба. |
Q # 10) Яка різниця між сховищем даних та операційною базою даних?
Відповідь: У наведеній нижче таблиці пояснюються відмінності:
Інформаційне сховище | Оперативна база даних | |
---|---|---|
7) | Підтримує кілька OLTP, як одночасних клієнтів. | Підтримує багато одночасних клієнтів. |
1) | Вони призначені для підтримки аналітичної обробки великих обсягів. | Вони підтримують обробку транзакцій великого обсягу. |
два) | Історичні дані впливають на сховище даних. | Поточні дані впливають на операційну базу даних. |
3) | Нові, нелеткі дані додаються регулярно, але залишаються рідко зміненими. | Дані регулярно оновлюються у міру потреби. |
4) | Він призначений для аналізу ділових показників за ознаками, предметними областями та категоріями. | Він призначений для обробки в реальному часі та ведення ділових відносин. |
5) | Оптимізовано для великих навантажень та складних запитів, що мають доступ до багатьох рядків у кожній таблиці. | Оптимізовано для простого набору транзакцій, таких як отримання та додавання по одному рядку для кожної таблиці. |
6) | Він повний достовірної та послідовної інформації і не потребує перевірки в режимі реального часу. | Покращено для перевірки вхідної інформації та використовує таблиці даних перевірки. |
8) | Його системи в основному орієнтовані на предмет. | Його системи в основному орієнтовані на процеси. |
9) | Дані виведені. | Дані В. |
10) | Доступ до величезної кількості даних. | Доступ до обмеженої кількості даних. |
одинадцять) | Створено для OLAP, он-лайн аналітична обробка. | Створено для обробки онлайн-транзакцій OLTP. |
Q # 11) Вкажіть різницю між OLTP та OLAP.
Відповідь: У таблиці нижче пояснюються відмінності:
OLTP | OLAP | |
---|---|---|
7) | Обсяг даних не дуже великий. | Він має великий обсяг даних. |
1) | Використовується для управління оперативними даними. | Використовується для управління інформаційними даними. |
два) | Клієнти, службовці та ІТ-фахівці ним користуються. | Менеджери, аналітики, керівники та інші працівники знань використовують це. |
3) | Це орієнтоване на споживача. | Він орієнтований на ринок. |
4) | Він управляє поточними даними, надзвичайно детальними та використовуваними для прийняття рішень. | Він управляє величезною кількістю історичних даних. Він також надає можливості для агрегування та узагальнення, а також управління та зберігання даних на різних рівнях деталізації. Отже, дані стає зручнішим для використання при прийнятті рішень. |
5) | Він має розмір бази даних 100 МБ-ГБ. | Він має розмір бази даних 100 ГБ-ТБ. |
6) | Він використовує модель даних ER (співвідношення сутності) разом із дизайном бази даних, який орієнтований на застосування. | OLAP використовує або модель сніжинки, або зірки разом із дизайном бази даних, який орієнтований на тему. |
8) | Режим доступу - читання / запис. | Режим доступу - це переважно запис. |
9) | Повністю нормалізується. | Частково нормалізується. |
10) | Швидкість його обробки дуже висока. | Швидкість його обробки залежить від кількості файлів, які він містить, складних запитів та пакетного оновлення даних |
Q # 12) Поясніть основну концепцію Apache Hadoop.
Відповідь: Він базується на алгоритмі MapReduce. У цьому алгоритмі для обробки величезного набору даних використовуються операції Map and Reduce. Карта, фільтрує та сортує дані, а зменшує, узагальнює дані. Масштабованість та відмовостійкість - ключові моменти цієї концепції. Ми можемо досягти цих функцій в Apache Hadoop, ефективно застосовуючи MapReduce та багатопоточність.
Q # 13) Ви коли-небудь працювали з Hadoop Framework?
(зображення джерело )
Відповідь: Багато менеджерів з найму запитують про інструмент Hadoop в інтерв’ю, щоб знати, чи знайомі ви з інструментами та мовами, якими користується компанія. Якщо ви працювали з Hadoop Framework, розкажіть їм деталі свого проекту, щоб висвітлити ваші знання та навички роботи з інструментом та його можливості. І якщо ви ніколи з цим не працювали, також допоможуть деякі дослідження, які б показали знайомство з його атрибутами.
Ви можете сказати, наприклад, “Під час роботи над командним проектом у мене була можливість працювати з Hadoop. Ми були зосереджені на підвищенні ефективності обробки даних, тому завдяки його здатності збільшувати швидкість обробки даних без шкоди для якості під час розподіленої обробки, ми вирішили використовувати Hadoop.
І оскільки моя попередня компанія очікувала значного збільшення обробки даних протягом наступних кількох місяців, також стала в нагоді її масштабованість. Hadoop - це також мережа з відкритим кодом, заснована на Java, що робить її найкращим варіантом для проектів з обмеженими ресурсами та простим у використанні без будь-якого додаткового навчання ».
Як відкрити двійковий файл у Windows - -
Q # 14) Згадайте деякі важливі особливості Hadoop.
Відповідь: Особливості такі:
- Hadoop - це безкоштовний фреймворк з відкритим кодом, де ми можемо змінювати вихідний код відповідно до наших вимог.
- Він підтримує швидшу розподілену обробку даних. HDFS Hadoop зберігає дані розподіленим способом і використовує MapReduce для паралельної обробки даних.
- Hadoop відрізняється високою толерантністю, і за замовчуванням на різних вузлах він дозволяє користувачеві створювати три репліки кожного блоку. Отже, якщо один із вузлів не вдався, ми можемо відновити дані з іншого вузла.
- Він також масштабований і сумісний з багатьма апаратними засобами.
- Оскільки Hadoop зберігав дані в кластерах, незалежно від усіх інших операцій. Отже, він надійний. На збережені дані не впливає несправність машин. І отже, він також дуже доступний.
Питання # 15) Як можна збільшити дохід від бізнесу, аналізуючи великі дані?
Відповідь: Аналіз великих даних є життєво важливою частиною бізнесу, оскільки він допомагає їм диференціювати один одного разом із збільшенням доходу. Аналітика великих даних пропонує індивідуальні пропозиції та рекомендації для бізнесу за допомогою прогнозного аналізу.
Це також допомагає компаніям випускати нові продукти на основі уподобань та потреб споживачів. Це допомагає бізнесу заробляти значно більше, приблизно на 5-20% більше. Такі компанії, як Bank of America, LinkedIn, Twitter, Walmart, Facebook тощо використовують Аналіз великих даних для збільшення своїх доходів.
Q # 16) Які кроки ви повинні виконувати під час розгортання рішення для великих даних?
Відповідь: При розгортанні рішення для великих даних потрібно дотримуватися трьох кроків:
- Завантаження даних - Це перший крок у розгортанні рішення для великих даних. Це вилучення даних з різних джерел, таких як SAP, MYSQL, Salesforce, файли журналів, внутрішня база даних тощо. Забір даних може відбуватися за допомогою потокового передавання в реальному часі або пакетних завдань.
- Зберігання даних Після поглинання даних витягнуті дані слід десь зберігати. Він зберігається або в базах даних HDFS або NoSQL. HDFS добре працює для послідовного доступу через HBase для довільного читання або запису.
- Обробка даних- Це третій і завершальний крок для розгортання рішення для великих даних. Після зберігання дані обробляються через один з основних фреймворків, таких як MapReduce або Pig.
Питання # 17) Що таке блок і сканер блоків у HDFS?
Відповідь: Блок - це мінімальний обсяг даних, який можна записати або прочитати в HDFS. 64 МБ - це розмір блоку за замовчуванням.
Сканер блоків - це програма, яка періодично відстежує кількість блоків на DataNode, а також перевіряє їх на наявність можливих помилок контрольної суми та пошкодження даних.
Q # 18) З якими проблемами стикалися ви, впроваджуючи нові програми для аналізу даних, якщо ви коли-небудь вводили такі?
Відповідь: Якщо ви ніколи не вводили нову аналітику даних, ви можете просто сказати це. Оскільки вони досить дорогі, і тому не часто компанії роблять це. Але якщо компанія вирішить інвестувати в неї, це може бути надзвичайно амбіційний проект. Для встановлення, підключення, використання та обслуговування цих інструментів потрібні висококваліфіковані працівники.
Отже, якщо ви коли-небудь проходили цей процес, повідомте їм, з якими перешкодами ви стикалися і як їх долали. Якщо ні, розкажіть їм детально, що ви знаєте про процес. Це питання визначає, чи є у вас базові ноу-хау для вирішення проблем, які можуть виникнути під час впровадження нових програм аналізу даних.
Зразок відповіді; «Я брав участь у впровадженні нових аналітичних даних у своїй попередній компанії. Весь процес складний і потребує чітко спланованого процесу для максимально плавного переходу.
Однак навіть за бездоганного планування ми не завжди можемо уникнути непередбачених обставин та проблем. Однією з таких проблем був неймовірно високий попит на ліцензії користувачів. Це пішло далі, ніж ми очікували. Для отримання додаткових ліцензій компанія повинна була перерозподілити фінансові ресурси.
Крім того, навчання повинно було плануватися таким чином, щоб воно не перешкоджало робочому процесу. Крім того, нам довелося оптимізувати інфраструктуру для підтримки великої кількості користувачів ».
Питання # 19) Що робити, якщо NameNode аварійно завершує роботу в кластері HDFS?
Відповідь: Кластер HDFS має лише один NameNode і він підтримує метадані DataNode. Наявність лише одного NameNode дає кластерам HDFS одну точку відмови.
Отже, у разі аварії NameNode системи можуть стати недоступними. Щоб запобігти цьому, ми можемо вказати вторинний NameNode, який приймає періодичні контрольні точки у файлових системах HDFS, але це не резервна копія NameNode. Але ми можемо використовувати його для відтворення NameNode і перезапуску.
Q # 20) Різниця між NAS та DAS у кластері Hadoop.
Відповідь: У NAS рівні зберігання та обчислення є окремими, а потім сховище розподіляється між різними серверами в мережі. Перебуваючи в DAS, сховище, як правило, приєднується до вузла обчислення. Apache Hadoop заснований на принципі обробки поблизу певного місця розташування даних.
Отже, диск зберігання повинен бути локальним для обчислень. DAS допомагає отримати продуктивність кластера Hadoop і може використовуватися на товарному обладнанні. Простими словами, це економічно вигідніше. Зберігання NAS є кращим з високою пропускною здатністю близько 10 Гбіт / с.
Питання # 21) Чи краще будувати базу даних NoSQL, ніж будувати реляційну базу даних?
(зображення джерело )
Відповідь: Відповідаючи на це запитання, ви повинні продемонструвати свої знання щодо обох баз даних. Крім того, ви повинні підтвердити це прикладом ситуації, яка демонструє, як ви будете застосовувати ноу-хау в реальному проекті.
Ваша відповідь може бути приблизно такою: «У деяких ситуаціях може бути корисно створити базу даних NoSQL. У моїй останній компанії, коли система франчайзингу експоненціально збільшувалась, нам довелося швидко масштабуватися, щоб максимально використати всі оперативні дані та дані про продажі, які ми мали.
Масштабування краще, ніж масштабування великих серверів при обробці підвищеного навантаження на обробку даних. Це рентабельно та легше виконувати за допомогою баз даних NoSQL, оскільки він може легко мати справу з величезними обсягами даних. Це стає в нагоді, коли вам потрібно швидко реагувати на значні зміни навантаження даних у майбутньому.
Хоча реляційні бази даних мають кращий зв'язок з будь-якими інструментами аналітики. Але бази даних NoSQL можуть багато запропонувати ».
Q # 22) Що ви робите, коли стикаєтесь з несподіваною проблемою з обслуговуванням даних? Ви пробували якісь нестандартні рішення для цього?
Відповідь: Неминуче несподівані проблеми виникають раз у раз у кожному рутинному завданні, навіть під час ведення даних. Це питання має на меті дізнатись, чи можете ви вирішити ситуації високого тиску і як.
Ви можете сказати щось на кшталт «Обслуговування даних може бути рутинним завданням, але життєво важливо уважно стежити за конкретними завданнями, включаючи переконання в успішному виконанні сценаріїв.
Одного разу, проводячи перевірку цілісності, я натрапив на пошкоджений індекс, який міг спричинити серйозні проблеми в майбутньому. Ось чому я придумав нове завдання з технічного обслуговування для запобігання додаванню пошкоджених індексів до бази даних компанії '.
Q # 23) Ви коли-небудь навчали когось у своїй галузі? Якщо так, то що з цього вам здається найскладнішим?
Відповідь: Зазвичай інженери даних потрібні, щоб навчити своїх колег новим системам або процесам, які ви створили, або навчити нових співробітників вже існуючим системам та архітектурі. Отже, цим запитанням ваш інтерв’юер хоче знати, чи можете ви з цим впоратись. Якщо у вас не було можливості самостійно навчити когось, поговоріть про виклики того, хто навчав, або ви знаєте, що стикалися з вами.
Зразок ідеальної відповіді буде приблизно таким. “Так, я мав можливість навчати малу і велику обидві групи колег. Навчання нових працівників зі значним досвідом роботи в іншій компанії - найскладніше завдання, з яким я стикався. Вони часто настільки звикли підходити до даних з однієї іншої точки зору, що намагаються прийняти спосіб, який ми робимо.
Часто вони бувають надзвичайно самовпевненими і вважають, що вони все добре знають, і тому їм потрібно багато часу, щоб усвідомити, що проблема може мати кілька варіантів вирішення. Я намагаюся заохотити їх відкрити свій розум і прийняти альтернативні можливості, підкреслюючи, наскільки успішними були наша архітектура та процеси '.
Q # 24) Які плюси і мінуси роботи в хмарних обчисленнях?
(зображення джерело )
Відповідь:
Плюси:
- Немає витрат на інфраструктуру.
- Мінімальне управління.
- Жодних клопотів щодо управління та адміністрування.
- Простота доступу.
- Платіть за те, чим користуєтесь.
- Це надійно.
- Він пропонує контроль даних, резервне копіювання та відновлення.
- Величезне сховище.
Мінуси:
- Для хорошого функціонування йому потрібне хороше з’єднання з Інтернетом і однаково хороша пропускна здатність.
- У нього є простої.
- Ваш контроль над інфраструктурою буде обмежений.
- Тут мало гнучкості.
- Це має певні постійні витрати.
- Можуть бути проблеми з безпекою та технічні проблеми.
Q # 25) Робота інженерів даних, як правило, відбувається за лаштунками. Вам комфортно працювати подалі від «уваги»?
Відповідь: Ваш менеджер з найму хоче знати, чи любите ви увагу або ви можете добре працювати в обох ситуаціях. Ваша відповідь повинна сказати їм, що, хоча вам подобається центр уваги, вам комфортно працювати у фоновому режимі.
«Для мене важливим є те, що я повинен бути експертом у своїй галузі та сприяти зростанню своєї компанії. Якщо мені доводиться працювати в центрі уваги, мені також комфортно це робити. Якщо є проблема, з якою керівництву потрібно вирішити, я, не вагаючись, підвищую свій голос і доводжу їх до своєї уваги '.
Q # 26) Що відбувається, коли сканер блоків виявляє пошкоджений блок даних?
Відповідь: Перш за все DataNode звітує до NameNode. Потім NameNode починає створювати нову репліку через репліку пошкодженого блоку. Пошкоджений блок даних не буде видалений, якщо кількість реплікацій правої репліки відповідає коефіцієнту реплікації.
Q # 27) Ви коли-небудь знаходили нове інноваційне використання вже існуючих даних? Чи це вплинуло на компанію позитивно?
Відповідь: Це питання призначене для них, щоб з’ясувати, чи є ви мотивованими та достатньо прагнутими внести свій внесок у успіх проектів. Якщо це можливо, дайте відповідь на запитання на прикладі, коли ви взяли на себе відповідальність за проект або придумали ідею. І якщо ви коли-небудь представляли нове рішення проблеми, теж не пропустіть її.
Приклад відповіді: “На останньому робочому місці я брав участь у з’ясуванні, чому у нас високий коефіцієнт плинності працівників. Я уважно спостерігав за даними різних департаментів, де знайшов високо корелюючі дані в таких ключових сферах, як фінанси, маркетинг, операції тощо, а також про рівень плинності працівників.
Співпрацював з аналітиками департаменту для кращого розуміння цих співвідношень. З нашим розумінням ми зробили деякі стратегічні зміни, які позитивно вплинули на рівень плинності працівників ».
Q # 28) Які нетехнічні навички, на вашу думку, найбільш корисні як інженер даних?
Відповідь: Намагайтеся уникати найбільш очевидних відповідей, таких як спілкування чи навички міжособистісного спілкування. Ви можете сказати: «Розстановка пріоритетів та багатозадачність часто корисні в моїй роботі. Ми отримуємо різні завдання за день, тому що працюємо з різними відділами. А отже, стає життєво важливим, що ми надаємо їм пріоритети. Це полегшує нашу роботу і допомагає нам ефективно їх закінчити ».
Q # 29) З якими загальними проблемами ви стикалися як інженер даних?
Відповідь: Це:
- Постійна інтеграція в режимі реального часу.
- Зберігання величезних обсягів даних та інформації з цих даних.
- Обмеження ресурсів.
- Враховуючи, які інструменти використовувати, а які можуть принести найкращі результати.
Висновок
Інженерія даних може здатися звичайною нудною роботою, але в цьому є багато цікавих аспектів. Це видно з можливих сценаріїв, які можуть задати інтерв'юери. Ви повинні бути готові відповісти не лише на технічні книжкові запитання, але й на ситуативні запитання, подібні на перераховані вище. Тільки тоді ви зможете довести, що можете добре виконувати свою роботу і заслуговувати на неї.
Всього найкращого!!
Рекомендована література
- Запитання та відповіді на інтерв’ю
- Запитання та відповіді на інтерв’ю для тестування ETL
- Найкращі 32 запитання та відповіді на інтерв’ю на етапі обробки даних
- Найпопулярніші запитання та відповіді на інтерв’ю JSON
- Найпопулярніші запитання та відповіді на інтерв’ю Teradata
- Найкращі 24 запитання щодо інтерв’ю з моделювання даних із детальними відповідями
- Найкращі запитання та відповіді на співбесіду з 50+ базами даних
- 30 найкращих запитань та відповідей на інтерв’ю SAS