Что такое «библиотека Python»?
Если вдуматься, она очень похожа на обычную библиотеку, в которой собраны самые разные книги. В библиотеке Python имеется несколько уникальных модулей, называемых файлами Python. Задействование их в программных проектах избавляет от необходимости раз за разом писать куски кода для часто используемых функций.
5 Библиотек Python для машинного обучения
1. NumPy
Представляет собой библиотеку общего назначения для обработки массивов. Имеет большой набор встроенных функциональных возможностей.
![](https://cdn-images-1.medium.com/max/533/0*UpQVFiHtGk4RlynX.png)
![](https://cdn-images-1.medium.com/max/533/0*0vtZMcbqzglijaJx.png)
Вот как работает стандартный NumPy. Ещё один пример смотрите по ссылке.
2. SciPy
SciPy — это усовершенствованный вариант NumPy. Если NumPy содержит функционал, предназначенный для базовых математических приложений, то SciPy беспроблемно работает даже с полиномами, подынтегральными функциями, различными преобразованиями, визуализацией данных и т. д.
![](https://cdn-images-1.medium.com/max/533/0*FL5FVJbaB8ovKPQ0.png)
![](https://cdn-images-1.medium.com/max/533/0*SUmyn_qLHNFQ3FWH.png)
Код доступен по ссылке.
3. Scikit-learn
Для разработки алгоритмов машинного обучения как нельзя лучше подходит библиотека Scikit-learn. Она помогает в предварительной обработке данных, создании модели и подгонки данных в ней. Здесь также имеются модули для прогнозирования, получения матрицы путаницы, точности модели и т. д.
![](https://cdn-images-1.medium.com/max/533/0*s1shcLdBwvsoxbqv.png)
![](https://cdn-images-1.medium.com/max/533/0*jNq06Rdwf33xwbqW.png)
Код доступен по ссылке.
4. Pandas
Пакеты Pandas содержат многочисленные инструменты для анализа данных, а также методы фильтрации данных. Здесь есть возможность считывать данные из различных форматов, таких как CSV, MS Excel и других.
Если данные в формате CSV, используется pandas.read_csv(“csv_filename.csv”). А если в формате Excel, то для удобного импортирования данных задействуется pandas.read_excel(“excel_filename.xlsx”).
Для хранения данных вPandas имеются две основные структуры данных:
1) Series. Подобно одномерному массиву, который хранит данные любого типа, здесь меняются значения, но не размер series.
2) DataFrame. Размер dataframe можно поменять. Здесь данные отображаются в формате строк и столбцов с дополнительным индексом.
![](https://cdn-images-1.medium.com/max/533/0*lsiLQDgQecFaIdzy.png)
![](https://cdn-images-1.medium.com/max/533/0*Pji59hjWE3zl7BSl.png)
В дополнение к приведённому выше фрагменту кода посмотреть, как с помощью Pandas реализуется data wrangling, т. е. подготовка наборов данных для последующей обработки и анализа, можно по ссылке.
5. Matplotlib
А эта библиотека используется для визуализации данных. Данные в matplotlib визуализируются в форматах точечных, столбчатых, круговых диаграмм, гистограмм, линейных графиков и т. д.
![](https://cdn-images-1.medium.com/max/533/0*JG55u4PA7-QCB24o.png)
![](https://cdn-images-1.medium.com/max/533/0*v4dolVlwvMyYicu8.png)
Matplotlib имеет в своём арсенале базовые инструменты графического отображения. Широкое применение нашла и работающая поверх matplot библиотека Seaborn, предоставляющая интерфейс, благодаря которому диаграммы и графики выглядят более эстетичными и привлекательными.
Чтобы подробнее узнать о Seaborn и его приложениях, загляните сюда.
Читайте также:
- Суперсила индексов для оптимизации SQL-запросов
- Большой недостаток социальных сетей и его устранение
- Разбор 7 ошибок Python
Читайте нас в Telegram, VK и Яндекс.Дзен
Перевод статьи Rashmi Dinesh Thekkath: PYTHON LIBRARIES FOR ML