3 худших совета по осваиванию науки о данных

Изучать что-то новое очень сложно. В поисках необходимых знаний приходится перебирать различные способы обучения: прочитывать множество научных статей, вступать в соответствующие сообщества, просматривать видеоматериалы.

К сожалению, существенная часть информации либо не соответствует действительности, либо просто недоступна для начинающих. При наличии достаточного опыта можно легко распознать и проигнорировать ее, однако новичку практически невозможно отделить зерна от плевел, что в итоге приводит к потере времени и разочарованию.

Вот худшие советы, которые я слышал, когда только приступил к освоению науки о данных.

#1. Начинайте с машинного обучения

Некоторые думают, что самая привлекательная часть работы специалиста по анализу данных — это создание модели машинного обучения.

Разработка модели МО, которая решает бизнес-проблемы, — конечно, круто, но это не должно стать приоритетом для того, кто только начал постигать науку о данных. Почему? Все просто: специалисты по анализу данных не так много времени уделяют созданию моделей. Кроме того, изучение машинного обучения в самом начале карьерного пути может затормозить процесс овладения первостепенными навыками.

Конечно, чтобы стать полноценным специалистом по работе с данными, нужно уметь строить модели машинного обучения, но поверьте: можно далеко продвинуться в овладении наукой о данных, пропуская на первых порах темы, связанные с машинным обучением.

Машинное обучение — это лишь небольшая часть рабочего процесса науки о данных.

Исследователи данных не уделяют много внимания машинному обучению. Опрос специалистов, занимающихся изучением данных, показал, что они тратят большую часть рабочего времени на сбор (19%) и очистку данных (60%). Реальные данные беспорядочны, поэтому этим цифрам можно верить.

Стоит ли сосредотачиваться на том, что занимает небольшую часть рабочего процесса в исследовании данных?

Если вы новичок, то однозначно нет!

Для начала надо приобрести базовые знания во многих других областях

Чтобы полностью понять концепции машинного обучения, необходимо овладеть фундаментальными знаниями в области статистики, математики и теории вероятности. Специалисту науки о данных нужно знать математику, чтобы построить модель линейной регрессии, и иметь представление о теории вероятности, чтобы лучше освоить наивный байесовский алгоритм.

Конечно, можно изучать все эти концепции по ходу дела, но овладение базовыми понятиями на старте — верный способ повысить эффективность обучения и упростить такие сложные темы, как МО.

#2. Изучите Python, R, Excel, Tableau, Power BI… (здесь может быть любой другой инструмент)

Знаете, какая самая большая ошибка при постижении науки о данных? Попытка изучить все инструменты, связанные с наукой о данных.

При смене профессии человек очень мало знает о новой сфере деятельности, в которую попадает. Поэтому обычно следует учебному плану онлайн-курсов. Такой план создается высококвалифицированными специалистами, которые иногда перегружают его учебными материалами, чтобы придать вид “полного (или исчерпывающего) курса по науке о данных”.

Один из первых ваших курсов по науке о данных может быть именно таким — с учебной программой, перенасыщенной множеством инструментов, используемых в науке о данных, таких как Python, SQL, R, Excel, Tableau, Power BI и т. д.

Это здорово, верно? Чем больше инструментов, тем лучше… Не совсем так.

Дело в том, что без надлежащего руководства, перегруженность учебным материалом чревата перегоранием и охлаждением к предмету изучения. К тому же, что еще хуже, масса приобретенных знаний может просто не понадобиться в работе. Не исключено, что для специалиста, знающего Python, изучение R окажется не столь полезным. А тому, кто освоил Tableau, стоит ли штудировать еще и Power BI?

Чем больше вы будете узнавать по мере карьерного роста, тем лучше. Однако в первые годы работы, чем больше инструментов попытаетесь освоить, тем меньшим их количеством действительно овладеете.

#3. Приобретайте только технические навыки

Обычная дорожная карта того, кто хочет стать специалистом по анализу данных, включает в себя изучение Python, SQL, математики, статистики и машинного обучения.

Все это технические навыки, которыми должен обладать каждый специалист по анализу данных. Но можно ли оказывать влияние на бизнес-решения, обладая только этими навыками?

Скажем, вы создали модель, которая предсказывает, сколько клиентов перестанут пользоваться продуктом компании. Как вы объясните заинтересованным лицам (которые не имеют представления о Python и машинном обучении), что ваша модель способна успешно снизить уровень оттока клиентов?

Имея только технические навыки, это невозможно сделать.

Вот почему необходимо развивать коммуникативные навыки. Это недооцененный, но важный навык, которым должен обладать каждый исследователь данных, чтобы донести свои умозаключения до нетехнических специалистов.

Отличные коммуникативные навыки помогут вам объяснять выводы с помощью впечатляющих историй, уверенно делиться своими результатами и учитывать бизнес-цели в каждой презентации.

Этому нельзя научиться, ограничившись курсами и книгами. Это навык, который нужно постоянно и настойчиво практиковать.

Читайте также:

Читайте нас в TelegramVK и Яндекс.Дзен


Перевод статьи Frank Andrade, The 3 Worst Pieces of Data Science Advice I’ve Ever Heard

Предыдущая статьяКогда не следует использовать нейронные сети
Следующая статьяВведение в прототипы JavaScript