Data Science

Навыки, необходимые для работы


Сфера data science пользуется большим спросом, однако для трудоустройства вам потребуется опыт работы. Несмотря на это, у множества лучших специалистов стоит самый различный опыт за плечами — от гуманитарных наук до нейробиологии. Выпускникам или специалистам по аналитике, желающим начать карьеру в data science, будет довольно трудно создать портфолио, демонстрирующее опыт работы именно в этой сфере. Хочу поделиться ключевыми умениями, которые помогут заполучить желаемую должность:

  1. Работа с облачными вычислениями
  2. Создание нового набора данных
  3. Объединение компонентов или систем
  4. Постановка сервиса
  5. Создание потрясающей визуализации
  6. Написание документации

Несомненно, главный навык для специалиста по data science — это умение создавать информационные данные, повышающие эффективность компании. Навык проработки информационных данных от начала и до конца дает значительное преимущество, которое стоит продемонстрировать в начале карьеры в data science.

Работа с облачными вычислениями

Многие компании требуют наличие опыта работы в облачных вычислительных средах у будущих сотрудников, поскольку эти платформы предоставляют инструменты для масштабирования рабочих потоков данных и моделей прогнозирования. Скорее всего, в работе будут использоваться такие облачные платформы, как Amazon Web Services (AWS) или Google Cloud Platform (GCP).

К счастью, многие платформы предоставляют бесплатные опции для ознакомления, что дает возможность приобрести навыки работы с платформой. Поработайте с различными функциями, чтобы узнать, как использовать эти инструменты для обучения и развертывания моделей.

Создание нового набора данных

На академических курсах и соревнованиях по data science обычно предоставляется чистый набор данных, а главная цель проекта — выполнение исследовательского анализа данных или моделирование. Однако во многих реальных проектах требуется выполнить обработку данных для создания набора преобразованных данных, необходимого для анализа или задачи по моделированию. Часто для обработки данных требуется сбор дополнительных наборов данных.

Попробуйте создать собственный набор данных. Этот процесс может включать в себя скрэпинг веб-сайта, отбор данных из endpoint (например, steamspy) или объединение нескольких источников данных в новый набор данных. 

Объединение компонентов или систем

Помимо всего прочего, специалист по data science должен уметь объединять компоненты или системы для выполнения задач, поскольку в процессе работы точного пути для создания модели может не оказаться. Или же для работы системы вам потребуется создать нечто уникальное. В идеале команда специалистов по data science должна обладать технической поддержкой для запуска и работы системы, однако разработка прототипов — полезный навык для любого специалиста, ускоряющий процесс работы.

Попробуйте объединить различные системы или компоненты в рабочем потоке data science. Поработайте с такими инструментами, как Airflow для создания прототипа data pipeline. Создайте мост между различными системами или соедините несколько компонентов в рамках одной платформы.

Постановка сервиса

Перед специалистом по data science часто возникает необходимость постановки сервиса, который могут использовать другие команды, работающие в этой компании. Например, приложение Flask, предоставляющее результаты модели глубокого обучения. Умение создавать прототипы сервисов ускоряет работу других команд с вашими информационными продуктами.

Рекомендую поработать с такими инструментами, как Flask или Gunicorn для установки сетевых endpoints и Dash —  для создания интерактивных веб-приложений в Python. Также попробуйте установить один из сервисов в экземпляре Docker.

Создание потрясающей визуализации

Несмотря на то, что хорошая работа и сама может удержаться на плаву, порой для начала необходимо привлечь внимание аудитории, прежде чем объяснять важность анализа или модели. Изучите инструменты для создания привлекательных визуализаций, которые будут выделяться среди других. 

Написание документации

Составление документаций проектов является еще одним ключевым навыком для специалиста по data science. Документация должна содержать краткое изложение, возможности практического применения, а также предоставляет подробную информацию о методологии и результатах. Главная цель — сделать исследование понятным как для широкой аудитории, так и для других специалистов.

Ведение блога и другие формы писательства помогут улучшить навыки. Попробуйте написать несколько статей по data science, чтобы научиться делиться опытом на различных уровнях.

Заключение

Сфера Data science требует наличие опыта работы с различными инструментами. К счастью, многие из этих инструментов доступны для всех, что упрощает создание портфолио для работы в этой сфере.


Перевод статьи Ben Weber: Six Recommendations for Aspiring Data Scientists

Предыдущая статьяКак объединить несколько CSV файлов через 8 строчек кода
Следующая статьяПрозрачность: иллюзии единой системы. Часть 2