Визуализация данных — важный аспект науки о данных. Когда мы имеем дело с огромными массивами, которые невозможно осмыслить путем простого перебора, нам нужно отобразить их в разных форматах, чтобы понять заключенную в них информацию. Пакеты для визуализации значительно облегчают эту работу специалистам по обработке данных.

Мы расскажем вам о семи уникальных пакетах для визуализации на Python, с помощью которых вы сможете отображать свои данные. Мы исключили из нашего перечня популярную платформу Matplotlib, поскольку она уже используется всеми энтузиастами науки о данных.


1. Bokeh

Bokeh — собственная библиотека Python, созданная по книге “Грамматика графиков (статистика и вычисления)”. Эта библиотека используется для построения графиков, которые без проблем импортируются в виде JSON-объектов или HTML-документов, поэтому их можно легко создавать на веб-страницах.

Кроме того, Bokeh-визуализации носят интерактивный характер. Это значит, что у вас есть возможность получить конкретную информацию о конкретных частях графика.

Выполните следующую команду, чтобы установить Bokeh:

pip install bokeh

Посмотрите несколько интересных графических изображений.

from bokeh.plotting import figure, output_file, show
plot = figure(plot_width=300, plot_height=300)
plot.annulus(x=[1, 2, 3], y=[1, 2, 3], color="#7FC97F",
inner_radius=0.2, outer_radius=0.5)
show(plot)

Откроется новая вкладка с графическим изображением. Несколько кнопок позволят вам с ним поэкспериментировать.

Скриншот, добавленный автором

2. Seaborn

Seaborn — это библиотека визуализации, созданная на основе Matplotlib. Вы получите доступ практически ко всем функциональным возможностям метрик в реальном времени, но с меньшим количеством строк кода и более эстетичными графиками.

Поскольку Seaborn основан на Matplotlib, тщательное изучение Matplotlib не помешает для извлечения максимальной пользы из этого пакета.

Выполните следующую команду, чтобы установить Seaborn:

pip install seaborn

Чтобы получить точечную диаграмму с использованием датасета, сделайте следующее:

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
dataset = sns.load_dataset("tips")
sns.relplot(
data=dataset,
x="total_bill", y="tip", col="time",
hue="smoker", style="smoker", size="size",
)
Скриншот, добавленный автором

3. ggplot

Как и Bokeh, эта библиотека основана на “Грамматике графики”, но ее возможности немного отличаются от функционального потенциала других библиотек. Используя библиотеку ggplot, вы можете добавить несколько слоев компонентов для создания окончательной версии визуализации.

Чтобы получить максимальную отдачу от этого ресурса, рекомендуем хранить данные в датафреймах, так как, согласно официальной документации, ggplot имеет самые тесные отношения с Pandas.

Выполните следующую команду, чтобы установить ggplot:

pip install –U ggplot

Больше информации о библиотеке ggplot можно получить из ее официальной документации на Python.

4. Plotly

Plotly несколько отличается от других пакетов, так как это веб-инструментарий. Но к нему также можно получить доступ из Python Notebook благодаря пользовательскому интерфейсу.

Этот пакет обладает такими замечательными функциями визуализации, как блочные гистограммы и контурные многоосевые графики. Все графики являются интерактивными.

Выполните приведенную ниже команду, чтобы установить Plotly:

pip install plotly=5.1.0

Для построения гистограммы с помощью Plotly введите код:

import plotly.graph_objects as go
fig = go.figure(data = go.bar(y=[1,2,3]))
fig.show()

5. Altair

Эта библиотека визуализации Python основана на Vega and Vega-Lite — мощной декларативной библиотеке статистической визуализации. Все, что вам нужно при ее использовании, — объявить связи между столбцами данных (ось X, ось Y, цвет и т.д.). Остальная часть работы будет выполнена автоматически.

Таким образом, упрощается процесс построения графика и сокращается количество строк кода. Кроме того, предоставляется возможность сделать интерактивные графики.

Вы можете выполнить приведенную ниже команду, чтобы установить Altair:

pip install altair vega_datasets

Используйте набор данных ирисов, чтобы визуализировать некоторые вещи:

import altair as alt
from vega_datasets import data
iris = data.iris()

# Making the Scatter Plot with altair
alt.Chart(iris).mark_point().encode(
# defining x-axis
x='sepalLength',
# defining y-axis
y='petalLength',
# defining shape
shape='species'
)

Особенность этого пакета заключается в том, что он предоставляет некоторые интересные функции. Нажмите на три точки в правом верхнем углу:

Можете сохранить этот график для дальнейшего использования. Рекомендуем также воспользоваться редактором Vega для исследования более интересных функциональностей.

6. Geoplotlib

Geoplotlib — специальный набор инструментов Python для визуализации географических данных. Его применяют для работы с картами и региональными данными, такими как населенность, пользовательская активность (карты кликов), климат и т.д. Чтобы пустить в ход этот инструментарий, необходимо установить NumPy и pyglet.

Выполните приведенную ниже команду для установки Geoplotlib:

pip install geoplotlib

7. Missingno

Одной из самых больших трудностей для специалистов по обработке данных является отсутствие данных в датасетах. Эти пропущенные значения должны быть обработаны должным образом для адекватного анализа данных. Missingno — библиотека Python, которая помогает визуализировать недостающие данные в датафреймах Pandas и определить частоту расположения пропущенных значений в датасете.

Вы можете выполнить приведенную ниже команду, чтобы установить Missingno:

pip install missingno

А эта запись поможет отобразить недостающие данные в виде гистограммы:

import pandas as pd
import missingno as msno
dataset = pd.read_csv('filename.csv')
msno.bar(dataset)

Заключение

Мы описали семь библиотек визуализации Python. Их наборы инструментов позволят вам достичь более эффективной и быстрой визуализации данных.

Возникает вопрос: “Зачем нам так много библиотек для построения графиков, когда есть мощная система Matplotlib?”. Очевидно, мы не можем отказаться от функционального разнообразия, которое предлагают эти библиотеки.

Каждая из них имеет свои преимущества, которые при правильном использовании могут дать более ожидаемые результаты, чем стандартные библиотеки. Для получения подробного обзора можете обратиться к официальной документации этих библиотек.

Читайте также:

Читайте нас в TelegramVK и Яндекс.Дзен


Перевод статьи Pranjal Saxena: 7 Unexplored Python Visualisation Packages You Must Know

Предыдущая статья9 навыков, которые нужно освоить в самом начале карьеры программиста
Следующая статьяРуководство по SQL: команда MySQL INSERT в подробностях