Data Science

После прохождения различных курсов и обучения на различных образовательных платформах, вроде Datacamp, вашим следующим шагом станет использование полученных знаний о Python, R, Git или Unix Shell на персональном компьютере. Однако, многие из нас затрудняются с тем, какие пакеты и программное обеспечение нужно установить, чтобы начать работу с различными технологиями. Поэтому в этой статье мы рассмотрим:

  • Преимущества Python-дистрибутива — Anaconda, а также процесс его установки.
  • Преимущества совместного использования R и RStudio, а также процесс их установки.
  • Преимущества Unix Shell, а также способы его использования на вашем персональном компьютере.
  • Преимущества использования Git, а также процесс его установки.

Ну что же, давайте начнем!

Python

Как вы понимаете, для того, чтобы начать использовать Python — сначала его необходимо установить. Для Python существует огромное количество различных дистрибутивов, но для Data Science — дистрибутив Anaconda является наиболее предпочтительным.

Преимущества Anaconda

Anaconda — это пакетный менеджер, менеджер окружения, а также Python-дистрибутив, содержащий в себе более 400 основных библиотек (с открытым исходным кодом) для научных и инженерных расчетов. Из предустановленных библиотек можно отметить numpy, scikit-learn, scipy, pandas, а также Jupyter Notebooks. На рисунке ниже вы увидите Jupyter Notebook в действии. Это крайне удобный инструмент для создания красивых аналитических отчетов, так как он позволяет хранить вместе код, изображения, комментарии, формулы и графики. Здесь вы можете подробнее узнать о Jupyter Notebooks.

Также у Anaconda есть несколько других преимуществ:

  • Если вам потребуются дополнительные пакеты после установки, вы можете использовать менеджер пакетов conda или pip для установки этих пакетов. Это очень удобно, так как вам не нужно будет беспокоиться из-за совместимости одних пакетов с другими. Всю работу за вас сделают conda или pip. Также Conda упрощает переход между Python 2 и 3 (Здесь вы сможете подробнее об этом узнать).
  • Anaconda поставляется совместно со Spyder — интерактивной IDE для научных расчетов на языке Python. Данная IDE позволяет писать, редактировать и тестировать код. Spyder предлагает просмотр и редактирование переменных с помощью GUI, динамическую интроспекцию кода, нахождение ошибок на лету и многое другое. Также, по необходимости, можно интегрировать Anaconda с другими Python IDE, включая PyCharm и Atom. Здесь вы сможете узнать об этом поподробнее.

Как установить Anaconda?

Ниже приведены ссылки на руководства по установке Anaconda на вашу ОС.

Язык программирования R

Большинство людей устанавливают RStudio в паре с языком программирования R. Интегрированная среда разработки RStudio считается самым простым и удобным способом работы с языком R.

Преимущества RStudio

При работе с языком R, вам доступен простенький встроенный интерпретатор, в котором можно запускать написанные команды. Но с точки зрения комфорта — он вам точно не подойдет. Поэтому и придумали IDE RStudio, который, по мнению некоторых пользователей, упрощает работу с R. Кое-что из его функций вам точно понравится, а именно: цветовая подсветка синтаксиса, автоматическое завершение кода, удобная навигация по скрипту и т.д

При запуске RStudio появляется экран, схожий с тем, что показан сверху. RStudio разделен на 4 экрана: (A) Текстовый редактор. (B) Панель управления для рабочей среды. © Интерпретатор R (D) Справочное окно и менеджер управления пакетами. Вы должны понять, что RStudio — единственная нужная вам вещь при работе с R. Люди очень часто задают вопрос о том, как установить пакеты в R. На видео ниже вам подробно ответят на этот вопрос на примере пакета tidyverse.

Если вам будет интересно углубиться в данную тему, у Datacamp есть серия из двух курсов, посвященных IDE RStudio (Часть 1Часть 2).

Как установить R и RStudio?

Ниже приведены ссылки на руководства по установке R и RStudio на вашу ОС.

Unix Shell

Навигация по директориям, копирование файлов, использование виртуальных машин и многое другое — являются неотъемлемой частью работы data scientist. Для выполнения этих задач часто используется Unix Shell.

Способы применения Unix Shell:

  1. Большинство платформ облачных вычислений основаны на Linux. Например, если вы захотите настроить Data Science окружение в Google Cloud или провести глубокое обучение (Deep Learning) с помощью Jupyter Notebooks в облачных веб-сервисах, типа Amazon Web Services и Amazon EC2, для этого вам потребуются знания и навыки работы с Unix Shell. Конечно, вы можете использовать виртуальную машину и на Windows, но подобный метод не так распространен.
  2. Unix Shell предоставляет ряд полезных команд, таких как: команда «wc», которая подсчитывает количество строк или слов в файле; команда «cat», которая позволяет вывести содержимое файла; команды head и tail, которые выводят начало (head) и конец (tail) файла. О многих других командах вы можете узнать из статьи «8 Useful Shell Commands for Data Science».
  3. Unix Shell часто интегрируется с другими технологиями, об этом и пойдет речь далее.

Интеграция с другими технологиями

К примеру, зачастую можно увидеть Unix Shell команды вместе с кодом на Python в Jupyter Notebook. В Jupyter Notebook, вы можете получить доступ к Unix командам, обращаясь к Unix Shell с помощью «!». В приведенном ниже коде, результат Unix команды «ls» (которая перечисляет все файлы в текущей директории) присваивается Python переменной myfiles.

myfiles = !ls

На скриншоте ниже изображен код Python, интегрированный в рабочий процесс для объединения нескольких датасетов. Обратите внимание на Unix Shell команду (в красном прямоугольнике), интегрированную в Jupyter Notebooks

Имейте в виду, что код на скриншоте выше — не какой-то уникальный способ решения проблемы, а всего лишь небольшой пример того, как вы можете использовать Unix команды. Если вы захотите научиться использовать Unix в Data Science, у Datacamp есть бесплатный курс, под названием «Introduction to Shell for Data Science», который я крайне рекомендую. Это тот навык, о котором забывают многие начинающие data scientist, но в дальнейшей работе он может очень пригодится.

Unix Shell на Mac

MacOS поставляется с Unix Shell по умолчанию, поэтому вам не придется ничего устанавливать. Но нужно знать, что существует множество Unix-систем, каждая из которых имеет разные команды. Случается, что у вас нет Unix команды (например, wget), которая до этого была в другой Unix системе. Подобно Anaconda и RStudio, у MacOS тоже есть менеджер пакетов под названием Homebrew. Ниже приведена ссылка о том, как установить и использовать Homebrew.

Как установить и использовать Homebrew

Команды Unix Shell в Windows

В операционной системе Windows команды Unix Shell по умолчанию не предустановлены. Не забывайте — эти команды будут очень полезны для аналитиков и специалистов в сфере Data Science. Существует множество различных способов, с помощью которых вы сможете установить оболочку Unix в Windows. Например, вы можете установить Git в свой Windows, в который уже входят Unix команды, которые будут доступны для работы из командной строки. Кроме того, вы можете установить GNU на Windows с помощью GOW (около 10мб) или с помощью Unix- подобной среды Cygwin(около 100мб).

Git

Git — на сегодняшний день — это самая широко используемая система контроля версий. Система управления версиями записывает все изменения, которые вы вносите в файл или целый набор файлов и сохраняет их как отдельные версии. Это очень удобно, когда, например, вы пишите код на протяжении нескольких недель и понимаете, что в последние три дня писали не то что нужно и просто откатываетесь к нужной вам версии. Git — важная технология, так как, помимо всего прочего, она позволяет одновременно трудиться над одним проектом/кодом разработчикам по всему миру. Большинство современных компаний, занимающихся разработкой, используют Git в своей профессиональной деятельности. Система контроля версий Git имеет следующие преимущества:

  • Ни одна из версий, которую вы закоммитили, не будет потеряна, поэтому вы всегда сможете вернуться к предыдущим версиям своего кода.
  • Git уведомит вас, если вы будете работать над участком кода, над которым уже кто-то работает. Таким образом, Git предотвращает потерю или перезапись версии (однако и такое возможно).
  • Git синхронизирует работу, выполняемую разными людьми на разных компьютерах, поэтому система масштабируется по мере объемов выполненной работы.
  • Научившись работать с Git, вы сможете вносить свой вклад в развитие проектов с открытым исходным кодом.

Интеграция с другими технологиями

Самое крутое в системе Git это то, что она интегрируется с другими технологиями. Ранее я уже упоминал, что интегрированная среда разработки RStudio (IDE) — это один из лучших вариантов для работы с языком R. RStudio предлагает поддержку управления версиями, и большинство интегрированных сред разработки Python (узнать об этом поподробнее можно здесь).

Если вы хотите узнать больше о том, как использовать Git в сфере Data Science, на сайте DataCamp есть бесплатный курс на эту тему, который я очень рекомендую к изучению.

Инструкции по установке Git

Ниже приведены ссылки на руководства по установке Git в вашей операционной системе.

Заключение

В данной статье, мы разобрали различные способы настройки Data Science окружения на вашем персональном компьютере. Важно подчеркнуть, что эти технологии часто используются совместно.

До новых встреч!

Перевод статьи Michael GalarnykSetup a Data Science Environment on your Personal Computer

Предыдущая статьяГде и как применить Python на практике? Три основные сферы его применения
Следующая статьяИзучите эти основы JavaScript и станьте лучшим разработчиком