7 библиотек Python для вашего первого проекта по науке о данных

Pandas

Данные играют первостепенную роль в разработке продуктов, задействующих науку о данных и машинное обучение. Однако информация часто нуждается в предварительной очистке и некоторых манипуляциях, прежде чем попасть в проект.

Библиотека Pandas позволяет загружать, очищать и обрабатывать данные. Для этих целей подойдут и такие альтернативы, как SQL, но Pandas намного проще и удобнее.

  • Установить библиотеку и узнать о ней подробнее можно здесь.

Numpy

Во многих проектах по науке о данных, в том числе и в компьютерном зрении, наиболее важным типом являются массивы. Numpy, библиотека Python, позволяет обрабатывать их и эффективно применять к ним различные алгоритмы. Этот инструмент потребуется для работы с некоторыми другими библиотеками, упомянутыми в статье.

  • Установить Numpy и изучить ее подробнее можно здесь.

SciKitLearn

Эта библиотека представляет собой набор инструментов для большинства типов моделей машинного обучения. Если вы работаете над проектом по МО, скорее всего, вам пригодится SciKitLearn.

  • Здесь можно узнать подробную информацию об этой библиотеке и установить ее.

Keras и PyTorch

В науке о данных и МО популярны такие модели, как простые и глубокие нейронные сети. Они используются для разработки технологий компьютерного зрения и обработки естественного языка. Некоторые библиотеки Python предоставляют инструменты, необходимые для создания нейронных сетей.

Самый популярный из них  —  TensorFlow  —  может оказаться довольно трудным для новичков. Поэтому начать изучение лучше с Keras, интерфейса (API) для Tensorflow, который упрощает тестирование различных архитектур нейронных сетей и даже позволяет создавать собственные. В последнее время также набирает популярность PyTorch.

  • Изучить и установить эти инструменты можно по ссылкам: Keras и PyTorch.

Requests

Большинство современных приложений, связанных с данными, работают с API (Application Programming Interface  —  интерфейс программирования приложений). Простыми словами, с его помощью можно запросить у сервера приложений доступ к базе данных или попросить его выполнить какую-либо задачу. Например, вы предоставляете API Карты Google два местоположения, а он возвращает продолжительность поездки между ними.

Библиотека Requests предназначена для связи с API и пригодится любому специалисту по данным.

  • Подробности о Requests и установочный файл находятся здесь.

Plotly

Важную часть в проектах по науке о данных составляет построение различных графиков. И хотя matplotlib  —  самая популярная библиотека Python, предназначенная для этих целей, более профессиональным, простым и гибким вариантом является Plotly. В ней доступно огромное количество типов графиков и инструментов для отображения. Кроме того, у Plotly более приятный дизайн.

  • Изучить и установить Plotly можно здесь.

ipywidgets

Когда дело доходит до пользовательского интерфейса, разработчику часто приходится выбирать между традиционным и сетевым вариантами. Первый можно создать с помощью таких библиотек, как PyQT и TkInter. Однако в большинстве случаев лучше разрабатывать веб-приложения, работающие в браузерах. Для этого понадобится библиотека, предоставляющая набор виджетов, например ipywidgets для Jupyter Notebook.

  • Инструкция по использованию и установке ipywidgets находится здесь.

Jupyter Notebook и Voila

В завершение разберем одни из самых простых инструментов.

Набор ipywidgets работает Jupyter Notebook, который потребуется для создания приложения. Скорее всего, вы уже используете Jupyter Notebook для построения моделей и исследовательского анализа. Однако его можно применять и для фронтенд-разработки.

Также вам понадобится сторонний инструмент Voila, который скрывает весь код из Jupyter Notebook. При запуске проекта Jupyter Notebook через Voila он приобретает вид обычного веб-приложения. Вы также можете запустить эти инструменты через сервис AWS EC2 и получить доступ к своему продукту через интернет.

  • Изучить и установить Voila можно здесь.

Читайте также:

Читайте нас в Telegram, VK и Яндекс.Дзен


Перевод статьи Naser Tamimi: Build Your First Data Science Application