Руководство для начинающих исследователей данных

Решил опубликовать эту статью по нескольким причинам. Во-первых, уже несколько лет работаю внештатным исследователем данных, а значит, приобрел ценный опыт, который может оказаться полезным для тех, кто хочет приобщиться к этой сфере.

Во-вторых, за последний год ко мне обратилось множество людей с просьбой дать рекомендации и предоставить ресурсы по науке о данных. К сожалению, у меня нет времени давать личные советы каждому, поэтому надеюсь, что эта статья станет полезным руководством для начинающих. В ней описаны основные шаги, которые нужно сделать, чтобы стать специалистом в области науки о данных, обладающим теоретическими знаниями и практическими навыками. Многие из упомянутых здесь книг и курсов находятся в свободном доступе.

Наука о данных объединяет программную инженерию, статистику и машинное обучение с целью извлечения бизнес-информации из необработанных данных. Профессия предлагает как интеллектуальное удовлетворение, так и значительное денежное вознаграждение.

Тем не менее эта область полна проблем и трудностей, которые часто обескураживают новичков. Наличие продуманного плана может дать значительное преимущество начинающему исследователю данных. Поэтому предлагаю новичкам пошаговый план действий, основанный на личном опыте. Кроме того, искренне надеюсь, что это руководство будет полезно тем, кто интересуются наукой о данных и стоит в самом начале карьерного пути!

Убедитесь, что наука о данных вам подходит

Машинное обучение за последние годы значительно продвинулось вперед, что привлекло к нему повышенное внимание СМИ. В новостных лентах стали регулярно появляться публикации о последних достижениях машинного обучения в научных исследованиях, медицине, бизнесе и т. д.

Ажиотаж вокруг прогрессивной технологии пробудил горячий интерес к ней у бесчисленного количества людей. Так, более 4 миллионов человек записались на курс Эндрю Ына “Машинное обучение” на Coursera, что свидетельствует об огромной популярности этой темы. Как следствие, на рынке труда обострилась конкуренция между претендентами на должности исследователей данных, особенно между junior-сотрудниками.

Эти факты убеждают в том, что для успеха специалиста в области науки о данных необходимы целеустремленность и упорный труд. Однако прежде чем приступить к овладению этой профессией, стоит понять, подходит ли она вам.

Надо исходить из того, что такая работа требует логического мышления, аналитических навыков и постоянного обучения. Исследователи данных должны постоянно совершенствовать свои навыки, знакомится с новыми программными инструментами и библиотеками, приобретать знания в данной области и быть в курсе последних исследований. Не все обладают одинаковыми талантами и способностями. Поэтому советую для начала пройти вводный курс по науке о данных, чтобы понять, подходит ли она вам, и только после этого принимать решение о выборе карьеры.

Изучайте науку о данных должным образом

В связи с растущей популярностью науки о данных и машинного обучения, появилось множество учебных пособий и онлайн-курсов, повышающих квалификацию тех, кто в этом заинтересован. Наличие научного звания не является абсолютно необходимым, но моя докторантура по информатике, безусловно, помогла мне. Любое образование в области точных наук пойдет вам на пользу, поскольку знакомство с математикой и компьютерным программированием является необходимым для исследователя данных.

Если хотите освежить знания по математике, советую отличную книгу ”Математика для машинного обучения”, которая находится в свободном доступе. Кроме того, ознакомьтесь с бесплатным учебником “Введение в современную статистику”. В нем изложены основы статистики, освоить которые необходимо каждому исследователю данных.

Одна из самых популярных книг по машинному обучению  —  ”Введение в статистическое обучение” под редакцией Гарета Джеймса. В ней предельно ясно изложены все теоретические концепции, включая регрессию, классификацию, машины опорных векторов, кластеризацию и деревья решений. Недавно вышло второе издание этой книги (дополненное главами о глубоком обучении, анализе выживаемости и др.), и теперь ее можно бесплатно скачать в электронной версии, так что обязательно ознакомьтесь с ней.

Кроме того, обратите внимание на ”Машинное обучение с PyTorch и Scikit-Learn” Себастьяна Рашки. Это еще одна замечательная книга, охватывающая все фундаментальные темы машинного обучения и глубокого обучения. Наконец, книга, опубликованная мной в прошлом году,  —  ”Упрощение машинного обучения с PyCaret”. Это удобное для начинающих введение в машинное обучение, основанное на библиотеке PyCaret.

Онлайн-курсы от Coursera, edX и Dataquest также могут стать отличной отправной точкой для начинающих, но не стоит ориентироваться на сертификацию курсов, поскольку главное  —  личный опыт. Учитывая это, Стэнфордский университет предоставляет бесплатный доступ к курсу “CS229: Машинное обучение”. Учебный план этого курса охватывает линейную алгебру, статистику, контролируемое обучение, неконтролируемое обучение, глубокое обучение и другие темы. Лекции можно смотреть на YouTube и при желании скачать конспекты занятий.

Соберите портфолио с лучшими проектами

Лучший способ приобрести опыт, прежде чем найти первую работу в области науки о данных,  —  создать собственный проект. Начните с поиска интересующей вас темы, затем загрузите набор данных из Kaggle или Google Dataset Search и разработайте свой проект! А лучше создайте собственный набор данных путем сканирования сайта, поскольку это необходимо в некоторых реальных проектах.

Подобные разработки могут показаться пугающими для новичка, но нет другого способа стать компетентным специалистом и ценным сотрудником для работодателей. Просто усвоить примеры из онлайн-курсов и книг недостаточно, ведь нужно выделиться на фоне остальных.

Разработав личные проекты, логично будет поделиться ими с другими. Github  —  это бесплатный сервис, позволяющий создавать репозитории для проектов, которые могут быть как публичными, так и приватными. Создание впечатляющего портфолио проектов в области науки о данных на Github  —  лучший способ самопрезентации, поскольку демонстрирует потенциальным работодателям практические навыки и достижения автора. Вот какие проекты можно разработать в области науки о данных.

  • Проект по анализу и визуализации данных.
  • Проект, посвященный статистическому тестированию (t-тест, ANOVA и хи-квадрат).
  • Проект, посвященный основным задачам МО, таким как классификация и регрессия.
  • Проект по анализу временных рядов и прогнозированию.
  • Проект по обработке естественного языка.

Следует помнить, что не обязательно создавать все эти проекты, чтобы иметь хорошее портфолио. Кроме того, стоит избегать использования шаблонных наборов данных, таких как Iris и Titanic Passengers, поскольку они уже были проанализированы миллионами людей.

Попробуйте найти новые наборы данных в интересующей вас области. Это позволит сосредоточиться на проекте и получить лучший результат! Кроме того, обязательно документируйте каждый проект и пишите резюме или заметку в блоге, делясь своими идеями с единомышленниками. Коммуникация  —  ключевой навык для исследователя данных, поэтому не стоит его недооценивать.

Подавайте заявки на работу

Следующий шаг после приобретения фундаментальных навыков работы с данными и создания портфолио с личными проектами  —  подача заявления о приеме на работу. Отправляясь на поиски первой работы, кандидаты на должность исследователя данных обычно чувствуют себя неуверенно из-за отсутствия опыта и других факторов. Большинству людей знакомы подобные состояния, поэтому не стоит отчаиваться. Наоборот, надо постараться справиться с неуверенностью продуктивным способом  —  мотивировать себя на совершенствование навыков и знаний.

LinkedIn  —  отличный сайт для поиска работы в области науки о данных, поскольку большинство компаний сегодня используют именно его. Glassdoor  —  еще один отличный ресурс, предлагающий множество объявлений, связанных с наукой о данных, машинным обучением и другими смежными областями. Если же хотите сделать карьеру фрилансера, используйте такие платформы, как Upwork, Fiverr и Freelancer.

Заводите полезные знакомства

Никто не может достичь по-настоящему великих свершений в одиночку, поэтому общение с профессионалами-единомышленниками должно стать приоритетом для каждого человека. В этом также поможет LinkedIn. Переписка с незнакомыми людьми может вызвать чувство неловкости, но оно не должно отталкивать от общения с теми, кто готов к сотрудничеству. Старайтесь проявлять уважение к собеседникам и не навязывать свое общение, если они заняты или просто не заинтересованы в поддержании отношений.

Еще один отличный способ обзавестись полезными знакомствами  —  хакатоны. Это мероприятия, в которых участвуют команды программистов, пытающихся разработать прототипы ПО за несколько дней, обычно за выходные. Жюри хакатона решает, какая команда показала лучший результат, и награждает участников денежным призом или возможностью создать компанию, основанную на представленной идее. Хакатоны  —  это отличный способ познакомиться с людьми, разделяющими ваши увлечения, и даже присоединиться к новой стартап-компании.

Заключение

Хочется верить, что эта статья поможет новичкам продвинуться по карьерному пути в области науки о данных и избежать распространенных ошибок. Разумеется, не стоит относиться к изложенному плану как к истине в последней инстанции  —  это лишь пожелания от профессионала новичкам.

Читайте также:

Читайте нас в TelegramVK и Яндекс.Дзен


Перевод статьи Giannis Tolios: A Guide for Aspiring Data Scientists

Предыдущая статьяКак использовать дизайн-токены в React — опыт команды Bit
Следующая статьяAWS WebSocket: написание документации с помощью Async API Spec