Года два назад наука о данных стала чрезвычайно популярной. Вокруг нее возник настоящий ажиотаж, и представители разных слоев общества стремились сделать карьеру именно в этой области.
Степень магистра науки о данных привлекала массу людей, и в Интернете не было недостатка в онлайн-курсах. Студенты стекались на такие сайты, как Coursera, Datacamp и Udemy, чтобы получить сертификат специалиста по обработке данных и увеличить свои шансы на рынке труда.
Однако в наши дни люди начинают более скептически относиться к этой области.
Я читал статьи, предрекающие “смерть науке о данных”. Некоторые авторы считают, что наука о данных — всего лишь преходящее явление и что шумиха вокруг него утихнет, как только произойдет следующий технологический прорыв.
Я также читал статьи, призывающие выпускников вузов искать работу в сферах инженерии данных, машинного обучения и информационно-технологического обслуживания. Именно этим отраслям пророчат следующий большой бум, который должен вытеснить науку о данных и связанные с ней профессии.
Я долго размышлял над этим. Следует ли мне продолжать изучать науку о данных? Или стоит потратить время на освоение других навыков, чтобы не остаться не у дел?
Сегодня, проработав более года в индустрии данных, хочу поделиться с вами своими соображениями по этому поводу. Надеюсь, моя статья будет особенно полезной для начинающих специалистов по обработке данных, которые, наслушавшись противоречивых советов, сомневаются в перспективности своей профессии.
Вот вопросы, на которые я попытаюсь ответить:
- Является ли инженерия данных новым технологическим прорывом? Должен ли я, специалист по обработке данных, сосредоточить усилия на том, чтобы стать инженером по данным?
- Смогут ли автоматизированные инструменты МО по мере своего совершенствования заменить специалистов по обработке данных?
- Является ли рынок науки о данных перенасыщенным и возможно ли все еще получить перспективную работу в этой области?
Инженерия данных против науки о данных
В интернете я прочитал много высказываний о том, что инженерия данных — самая востребованная профессия XXI века — займет место науки о данных.
После тесного сотрудничества с командами по инженерии данных и обработке данных я пришел к выводу, что обе области одинаково ценны.
Компании нуждаются в инженерах данных. Им необходимы люди, способные собирать большие объемы данных и делать их пригодными для использования.
Однако им также нужны специалисты по анализу и обработке данных, которые используют собранные данные для определения ценности бизнеса. Именно эти специалисты создают конечный продукт, способный обеспечить прибыль организации.
Причина, по которой инженеры данных сейчас так популярны, заключается в том, что компании испытывают нехватку этих кадров.
В прошлом организации придавали слишком большое значение специалистам по анализу и обработке данных. Их нанимали для создания прибыльных бизнес-моделей, когда у компаний не было еще надлежащего конвейера данных.
Но специалисты по обработке данных, занимающиеся созданием моделей, не могут совладать с огромными массивами поступающих в режиме реального времени неструктурированных данных. Это означает, что они не способны принести значительной пользы организации, поскольку подготовленные ими данные не соответствуют предъявляемым требованиям.
Теперь, когда компании начинают осознавать это, они уделяют больше внимания найму инженеров данных.
Это не означает, что специалисты по обработке данных стали лишними. Их навыки создания моделей по-прежнему необходимы организациям. Просто их черед наступает позже, когда данные будут готовы к использованию.
Обе эти профессии пользуются спросом и реально повышают ценность компаний. Выбирайте то, что вам больше всего нравится делать.
Заменит ли автоматизация специалистов по обработке данных?
Инструменты для создания прогнозирующих моделей, такие как DataRobot и AutoML, становятся все более популярными. Все больше компаний инвестируют в них.
Это привело к новой проблеме — нужны ли еще организациям специалисты по обработке данных? Или автоматические инструменты способны самостоятельно справиться с их работой?
У меня уже есть опыт использования DataRobot. Этот инструмент предназначен для создания прогнозирующих моделей бизнес-аналитиками, не обладающими знаниями в сфере машинного обучения или науки о данных.
Вот мои впечатления от работы с DataRobot:
- Это очень простой в использовании инструмент. С его помощью легко импортировать данные в различных форматах и создавать МО-модели всего в несколько кликов.
- О настройке параметров позаботились разработчики DataRobot. Выполняя поиск по диапазону значений для каждого гиперпараметра, инструмент выбирает оптимальное значение, соответствующее вашим данным. Это сокращает объем ручной работы.
Однако, несмотря на впечатляющие возможности автоматизированного машинного обучения, подобные инструменты еще долго не смогут заменить специалистов по обработке данных.
Я испробовал различные варианты использования DataRobot, и мне все еще приходилось самому выполнять такие задачи, как добавление весов признаков. Кроме того, всю предварительную обработку, предшествующую созданию модели, пришлось также выполнять вручную.
Данные должны быть подобраны и разбиты на части в соответствии с бизнес-показателями. Специалисты по обработке данных обычно тратят куда больше времени на подготовку данных в соответствии с требованиями, чем на создание моделей.
Эта трудоемкая работа по-прежнему возлагается на специалистов по обработке данных. 80 % задач, которые они обычно выполняют, не могут быть автоматизированы.
При использовании DataRobot мне все еще приходилось вручную изменять параметры (например, пороговое значение модели и весовые коэффициенты признаков) в зависимости от необходимого результата.
При работе с этими инструментами по-прежнему требуется человеческое вмешательство.
Если у вас есть знания в области обработки данных, а также навыки анализа и программирования, автоматизированные инструменты вас не заменят.
Эти инструменты помогут ускорить ваш рабочий процесс и сократить количество используемых вычислительных ресурсов. Однако они призваны дополнить вашу работу, а не заменить ее.
Сохраняется ли спрос на специалистов по обработке данных?
В 2020 году каждый человек генерировал 1,7 мегабайта данных всего за 1 секунду. Пользователи Интернета ежедневно генерируют около 2,5 квинтиллиона байтов данных.
Данные используются для создания масштабных изменений во многих отраслях — здравоохранении, финансах, маркетинге, бизнесе и т. д.
Я работаю в сфере маркетинга и имею дело с миллионами точек данных, которые генерируются ежедневно. Эти данные используются для наблюдения за поведением клиентов и разработки различных стратегий таргетинга.
Компаниям необходимо нанимать людей, которые могут извлечь пользу из этих точек данных.
Бизнес-аналитик сам по себе не сможет этого сделать, поскольку он не обладает техническими знаниями.
Если вы умеете работать с огромными объемами данных и решать проблемы с их помощью, для вас найдется место в отрасли.
Однако не стоит ограничиваться разработкой моделей. Необходимо приобретать другие профессиональные компетенции. Вам нужно уметь находить внешние данные, используя свои технические навыки. Вы должны быть сильны в коммуникации и решении проблем.
Эти компетенции отличают вас от обычного соискателя в области науки о данных.
Наука о данных на практике сильно отличается от науки о данных в теории.
При работе в отрасли не имеет значения, будете ли вы заняты целый день, чтобы сделать свою модель на 1% точнее, чем раньше. Подобные скиллы могут прибавить вам очков на конкурсе Kaggle, но не принимаются в расчет заинтересованными сторонами.
Гораздо важнее такие вещи, как оправданность каждой функции модели, объяснимость ее результатов и применимость к реальным сценариям.
Специалист по обработке данных, обладающий этими навыками, незаменим.
Заключение
Наука о данных не умирает. Однако в этой области происходят изменения, и компании начинают искать людей, способных решать проблемы с помощью данных.
Это касается не только создания моделей. Когда перед вами стоит бизнес-проблема, решение не всегда заключается в разработке модели машинного обучения.
Иногда простой SQL-запрос или визуализация могут дать исчерпывающие ответы на важнейшие вопросы. Использование методов МО для решения каждой проблемы с данными дорого и требует много времени, поэтому вам необходимо обладать знаниями, выходящими за эти рамки.
Не существует автоматизированного инструмента, который может заменить навыки специалиста по обработке данных, если вы постоянно учитесь и принимаете решения, основанные на данных.
Читайте также:
- Руководство для начинающих исследователей данных
- Инструменты для быстрого овладения наукой о данных
- 6 упущений в курсе науки о данных
Читайте нас в Telegram, VK и Яндекс.Дзен
Перевод статьи Natassha Selvaraj, Will Data Scientists Still Be in Demand in 2022?