Data Science

Как получить работу в области Data Science? Во-первых, нужно знать основы статистики, машинного обучения, программирования и т.д. Во-вторых, вам нужно будет составить портфолио. Да, несомненно, готовое резюме очень важно при трудоустройстве, но наличие портфолио будет вашим козырем. Даже если работа, фактически, уже у вас в кармане — никогда не будет лишним наглядно показать, а не просто объяснить на словах, будущему работодателю, что конкретно вы умеете делать. В этой статье я приведу ссылки на интервью, в которых различные Data Science-специалисты рассказывают о том, как правильно составить портфолио и как выделиться на фоне остальных кандидатов. Приступим!

Значение портфолио

Помимо того, что при составлении портфолио вы, очевидно, научитесь составлять портфолио, так оно еще и поможет вам устроиться на работу. Давайте дадим определение нашему термину. Портфолио — это публичное доказательство ваших навыков в области Data Science. Я узнал об этом определении от Дэвида Робинсона, главного Data Scientist’а в DataCamp, во время его интервью с Маррисой Джеммой для блога Mode Analytics. Его попросили рассказать о своей первой работе в IT индустрии, и вот, что он ответил:

Я много занимался публичной деятельностью. Вел блог, занимался разработкой с открытым исходным кодом во время защиты диплома, для того чтобы всем продемонстрировать свои навыки в области Data Science. Свою первую работу я тоже получил, посредством публичной деятельности. Во время защиты диплома, я постоянно отвечал на вопросы со Stack Overflow. На один из моих ответов наткнулся инженер одной компании. Он сильно впечатлился моим ответом и решил связаться со мной через Twitter. Через пару интервью я уже начал работать у них.

Да, можно сказать, что это была чистой воды случайность. Но, на самом деле, чем выше ваша активность, тем выше шанс того, что и с вами произойдет такая вот «случайность». Из одного поста в блоге Дэвида:

Чем больше вы занимаетесь публичной деятельностью, тем выше вероятность такой «случайности»: кто-то может наткнуться на ваш блог или ответ на Stack Overflow и пригласить на собеседование, а кто-то может непосредственно на собеседовании сказать, что слышал о ваших проектах и это может сыграть вам на руку.

Люди зачастую думают, что разработчики программного обеспечения и Data Science-специалисты какие-то там супер-гении и им не нужно гуглить возникающие у них вопросы. Это конечно же миф. Поэтому, если специалисты решают свои проблемы через ваши ответы на форумах или же через ваш блог — это может хорошо повлиять на вашу карьеру, вплоть до того, что они могут предложить вам сотрудничество.

Портфолио поможет вам обойти графу «Требуемый опыт»

Даже если вы устраиваетесь на первую работу в своей жизни — от вас все равно, в 99% случаев, потребуют хоть какой-то реальный опыт.

Тут же возникает вопрос: «Где мне получить опыт работы?». Прямо за вопросом появляется ответ: проекты. Проекты, как ничто другое, помогут вам заменить «требуемый опыт работы» или, как сказал Уилл Стэнтон:

Если у вас нет никакого опыта работы в сфере Data Science, то вам однозначно стоит заняться независимыми проектами.

Когда Джонатан Нолис проводит собеседования, от кандидата он хочет услышать описание проблемы/проекта, с которыми тот недавно работал:

Я хочу услышать от него о проблеме/проекте, с которым он работал в последнее время. Я спрашиваю у кандитатов о том, когда проекту дали старт, почему он решил что проект стоит свеч, спрашиваю о процессе работы и результатах. Также, я спрашиваю их о том, что дал им этот проект. Из ответа на этот вопрос я многое о них узнаю: как они морально и физически справляются с тяжелой работой, как они решают проблемы и т.д.

Если у вас нет опыта работы в сфере Data Science, на собеседовании расскажите о том, над какими проектами вы работали.

Какие проекты стоит включить в портфолио?

Data Science — это крайне обширная наука, по этой причине трудно понять, какие проекты стоит включить в свое портфолио, а какие нет. Уильям Чен, Data Science-менеджер в Quora, поделился своими мыслями по этому вопросу на Kaggle’s CareerCon 2018:

Мне нравятся проекты, в которых люди наглядно показывают, что они действительно увлечены и любят сферу Data Science. То есть это любая категория проектов, в которой люди исследуют «интересный набор данных» и приходят к еще более интересным результатам. Любая категория проектов, в которой люди прикладывают все свои усилия и все подробно описывают в отчетах. Мне очень нравятся отчеты, в которых зафиксировано все до мелочей, но при этом нет ничего лишнего. Кроме этого, я считаю, что в отчетах должно быть как можно больше визуальной информации.

Многие люди не сомневаются в том, что проекты просто необходимо создавать, но они сомневаются в том, откуда брать эти «интересные наборы данных» и что с ними делать потом? Джейсон Гудман, Data Scientist в Airbnb, написал статью под названием «Советы по выбору и созданию проектов для Data Science портфолио», в которой он говорит о том, как выбрать идею для проекта, и дает советы относительно того, какие наборы данных вы должны использовать. Также он практически повторяет слова Уильяма Чена о работе с «интересными наборами данных»:

Я считаю, что проекты для портфолио должны быть связаны с работой с «интересными наборами данных», а не со сложным моделированием. Зачастую, люди делают проекты, которые как-то связаны с финансовой информацией или, например, данными Twitter. Конечно, эти проекты можно добавить в портфолио, но набор данных, по своей сути, неинтересен, поэтому работа над такими проектами только навредит ученым.

Также, в своей статье, Джейсон говорит о таком методе, как Web Scraping, с помощью которого можно заполучить «интересный набор данных». Если вам интересно узнать, как создать собственный набор данных с помощью Web Scraping’а на Python, можете прочесть мою статью об этом — здесь. Кстати, ваша дипломная работа тоже может сойти за проект (крайне большой проект). Об этом Уильям Чен говорит здесь.

Типы проектов которые НЕ стоит включать в портфолио

Во многих статьях, касающихся правильного составления резюме/портфолио, советуют не браться за банальные проекты.

Джереми Харрис в своей статье «4 способа НЕ получить должность Data Scientist’а» сказал:

Трудно придумать более быстрый способ, чтобы отбросить ваше резюме в категорию «определенно он нам не подходит», чем продемонстрировать примитивный проект, который доказывает какую-то концепцию, вместо того чтобы продемонстрировать серьезный личный проект.

Вот некоторые типы проектов, которые скорее принесут вам вред, чем пользу:

*Прогнозирование судьбы пассажиров Титаника, с помощью набора данных «Titanic»

*Распознавание символов, написанных от руки, с помощью набора данных «MNIST»

*Распознавание цветов, с помощью набора данных «Iris»

На изображениях ниже показаны примеры задач, выполненных с помощью вышеприведенных наборов данных: Titanic(A), MNIST(B), Iris(C). Но даже с этими наборами данных можно выгодно отметить себя на фоне остальных кандидатов. Просто создайте оригинальный проект.

Titanic (A), MNIST (B), Iris ( C)
Во второй части нашего цикла мы поговорим о том, как правильно составить свое портфолио и том как Data Science-менеджеры их отбирают.Перевод статьи Michael GalarnykHow to Build a Data Science Portfolio