Собеседование в области науки о данных: 7 распространенных ошибок

Наука о данных  —  одна из самых быстрорастущих областей в технологической индустрии. Если вы постоянно получаете отказы после собеседований, постарайтесь выявить свои “слабые места” и поработать над ними. Данная статья вам в этом поможет.

Материал написан на основе собеседований с более чем 70 кандидатами на различные должности в области науки о данных и МО.


Ошибка 1. Отсутствие README.md на репозитории GitHub

Многие кандидаты полагают, что наличие Jupyter Notebook на GitHub может существенно выделить их среди других. Однако специалист отдела кадров или нетехнический рекрутер может не знать, что такое файл Jupyter Notebook и как его открыть!

Чтобы продемонстрировать свои труды, стоит создать высокоуровневое описание проекта в README. Он может содержать следующую информацию (но не ограничиваться ею).

  • Представление решаемой проблемы.
  • Источник набора данных.
  • Если данные были получены путем извлечения, то как оно было реализовано?
  • Какие базовые модели были рассмотрены или использованы (подробнее об этом ниже)?
  • Какие алгоритмы применены? Какие результаты достигнуты?
  • Как воспроизвести результаты?
  • Если приложение требует Docker, то как запустить контейнер?
  • Ссылка на развернутое приложение (бонус).

Ошибка 2. Неработающие гиперссылки в резюме

Кажется, что проверить гиперссылки  —  одна из самых простых задач. Тем не менее она часто встречается в резюме. Если интервьюер увидит надпись “Страница не найдена, ошибка 404”, то вам точно не удастся произвести на него хорошее впечатление!

Ошибка 3. Представление МО-модели в неразвернутом состоянии

Цель машинного обучения  —  решить проблему. Это можно сделать, когда модель находится в производстве, а пользователь/сервис получает прогнозы.

Поэтому стоит научиться развертывать МО-модель в реальных условиях. Тем самым вы дадите понять интервьюеру, что:

  • знакомы с такими технологиями, как Docker, AWS и Heroku;
  • можете продемонстрировать свои творческие способности с помощью Streamlit и Gradio;
  • хотите продолжать учиться и внедрять комплексные решения.

Ошибка 4. Поспешное использование высокотехнологичного глубокого обучения

Не спешите пробовать самые современные алгоритмы глубокого обучения в первой итерации, пытаясь произвести яркое впечатление на интервьюера. Начните с базовой модели. К примеру, технологии по предварительному обучению обеспечивают продуктивную базовую модель для решения задач по обработке естественного языка.

Базовая модель может быть эвристической или даже не моделью МО! Выясните, что именно не удается реализовать в базовых моделях. Это поможет определить направление для новых экспериментов.

Ошибка 5. Неготовность к вопросам по Python/DSA

Несмотря на то, что некоторые компании не включают в собеседования раунд(ы) по DSA (структурам данных и алгоритмам), от кандидата на должность исследователя данных ожидается знание основ Python и структур данных. Работая интервьюером, я убедился в том, что кандидаты знают встроенные модули Python, но из-за отсутствия практики не могут справиться с такими простыми заданиями, как объединение двух отсортированных массивов.

Поэтому настоятельно рекомендую не пренебрегать базовыми вопросами по DSA и улучшить практические навыки в этой области.

Ошибка 6. Неготовность к общим вопросам о проекте

На собеседованиях кандидатов часто просят подробнее рассказать об их проектах. К сожалению, ответить на такой вопрос могут не все. Многие кандидаты уделяют больше внимания представлению проекта и метрикам, а не проблемам, которые им удалось решить!

Если вы подготовитесь к этому вопросу, то на собеседовании сможете:

  • направить обсуждение в свою пользу;
  • проявить область своих компетенций;
  • продемонстрировать навыки общения.

Вот примерный план ответа, который ожидает услышать интервьюер.

  • Первоначальные сведения о бизнес-проблеме, которую вы пытаетесь решить.
  • Кто входит в число конечных пользователей этого решения? Как они могут использовать прогнозы модели?
  • Источник данных.
  • Этапы предварительной обработки.
  • Базовые модели и другие эксперименты.
  • Метрики, используемые для оценки.
  • Развертывание модели и задачи.

Записывайте и практикуйте ответы на общие вопросы  —  это поможет чувствовать себя комфортно на собеседованиях.

Ошибка 7. Пренебрежение фундаментальными знаниями

Это одна из главных проблем, наблюдаемых у кандидатов на должность исследователя данных. Многие из них, пренебрегая основами знаний, спешат перейти к продвинутым концепциям. Например, игнорируют рекуррентные нейронные сети (RNN) и режим долговременной памяти (LSTM), переходя сразу к трансформерам! Не делайте этого: базовые знания  —  надежный фундамент для освоения продвинутых концепций.

Заложить прочный фундамент опорных знаний помогают и бесплатные ресурсы, например онлайн-курс Стэнфордского университета Stanford Online.

При применении понятий машинного обучения обязательно следуйте общеизвестным и проверенным ресурсам. Например, распространенное заблуждение  —  использовать Standard Scaler для масштабирования признаков отдельно для обучающих и тестовых данных.

# Пример того, как НЕ следует масштабировать признаки!
# fit_transform() не следует использовать на тестовых данных.

from sklearn.preprocessing import StandardScalersc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.fit_transform(X_test)

Заключительные мысли

Собеседование в области науки о данных  —  сложное испытание. Волшебного рецепта для успешного его прохождения нет. У каждой компании свои требования к кандидатам и свои системы оценивания. Эти три установки помогут при подготовке к собеседованиям:

  • быть открытым для обратной связи;
  • постоянно находить и устранять пробелы в знаниях и навыках;
  • не сдаваться из-за неудач.

Читайте также:

Читайте нас в TelegramVK и Яндекс.Дзен


Перевод статьи Abhishek Pawar: Mistakes to Avoid in the Data Science Interview

Предыдущая статьяWeb Speech API в JavaScript: от текста к речи
Следующая статья#03TheNotSoToughML | Регрессия: Ошибки → Спуск с вершины горы