Визуализация данных — важный аспект науки о данных. Когда мы имеем дело с огромными массивами, которые невозможно осмыслить путем простого перебора, нам нужно отобразить их в разных форматах, чтобы понять заключенную в них информацию. Пакеты для визуализации значительно облегчают эту работу специалистам по обработке данных.
Мы расскажем вам о семи уникальных пакетах для визуализации на Python, с помощью которых вы сможете отображать свои данные. Мы исключили из нашего перечня популярную платформу Matplotlib, поскольку она уже используется всеми энтузиастами науки о данных.
1. Bokeh
Bokeh — собственная библиотека Python, созданная по книге “Грамматика графиков (статистика и вычисления)”. Эта библиотека используется для построения графиков, которые без проблем импортируются в виде JSON-объектов или HTML-документов, поэтому их можно легко создавать на веб-страницах.
Кроме того, Bokeh-визуализации носят интерактивный характер. Это значит, что у вас есть возможность получить конкретную информацию о конкретных частях графика.
Выполните следующую команду, чтобы установить Bokeh:
pip install bokeh
Посмотрите несколько интересных графических изображений.
from bokeh.plotting import figure, output_file, show
plot = figure(plot_width=300, plot_height=300)
plot.annulus(x=[1, 2, 3], y=[1, 2, 3], color="#7FC97F",
inner_radius=0.2, outer_radius=0.5)
show(plot)
Откроется новая вкладка с графическим изображением. Несколько кнопок позволят вам с ним поэкспериментировать.
2. Seaborn
Seaborn — это библиотека визуализации, созданная на основе Matplotlib. Вы получите доступ практически ко всем функциональным возможностям метрик в реальном времени, но с меньшим количеством строк кода и более эстетичными графиками.
Поскольку Seaborn основан на Matplotlib, тщательное изучение Matplotlib не помешает для извлечения максимальной пользы из этого пакета.
Выполните следующую команду, чтобы установить Seaborn:
pip install seaborn
Чтобы получить точечную диаграмму с использованием датасета, сделайте следующее:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
dataset = sns.load_dataset("tips")
sns.relplot(
data=dataset,
x="total_bill", y="tip", col="time",
hue="smoker", style="smoker", size="size",
)
3. ggplot
Как и Bokeh, эта библиотека основана на “Грамматике графики”, но ее возможности немного отличаются от функционального потенциала других библиотек. Используя библиотеку ggplot, вы можете добавить несколько слоев компонентов для создания окончательной версии визуализации.
Чтобы получить максимальную отдачу от этого ресурса, рекомендуем хранить данные в датафреймах, так как, согласно официальной документации, ggplot имеет самые тесные отношения с Pandas.
Выполните следующую команду, чтобы установить ggplot:
pip install –U ggplot
Больше информации о библиотеке ggplot можно получить из ее официальной документации на Python.
4. Plotly
Plotly несколько отличается от других пакетов, так как это веб-инструментарий. Но к нему также можно получить доступ из Python Notebook благодаря пользовательскому интерфейсу.
Этот пакет обладает такими замечательными функциями визуализации, как блочные гистограммы и контурные многоосевые графики. Все графики являются интерактивными.
Выполните приведенную ниже команду, чтобы установить Plotly:
pip install plotly=5.1.0
Для построения гистограммы с помощью Plotly введите код:
import plotly.graph_objects as go
fig = go.figure(data = go.bar(y=[1,2,3]))
fig.show()
5. Altair
Эта библиотека визуализации Python основана на Vega and Vega-Lite — мощной декларативной библиотеке статистической визуализации. Все, что вам нужно при ее использовании, — объявить связи между столбцами данных (ось X, ось Y, цвет и т.д.). Остальная часть работы будет выполнена автоматически.
Таким образом, упрощается процесс построения графика и сокращается количество строк кода. Кроме того, предоставляется возможность сделать интерактивные графики.
Вы можете выполнить приведенную ниже команду, чтобы установить Altair:
pip install altair vega_datasets
Используйте набор данных ирисов, чтобы визуализировать некоторые вещи:
import altair as alt
from vega_datasets import data
iris = data.iris()
# Making the Scatter Plot with altair
alt.Chart(iris).mark_point().encode(
# defining x-axis
x='sepalLength',
# defining y-axis
y='petalLength',
# defining shape
shape='species'
)
Особенность этого пакета заключается в том, что он предоставляет некоторые интересные функции. Нажмите на три точки в правом верхнем углу:
Можете сохранить этот график для дальнейшего использования. Рекомендуем также воспользоваться редактором Vega для исследования более интересных функциональностей.
6. Geoplotlib
Geoplotlib — специальный набор инструментов Python для визуализации географических данных. Его применяют для работы с картами и региональными данными, такими как населенность, пользовательская активность (карты кликов), климат и т.д. Чтобы пустить в ход этот инструментарий, необходимо установить NumPy и pyglet.
Выполните приведенную ниже команду для установки Geoplotlib:
pip install geoplotlib
7. Missingno
Одной из самых больших трудностей для специалистов по обработке данных является отсутствие данных в датасетах. Эти пропущенные значения должны быть обработаны должным образом для адекватного анализа данных. Missingno — библиотека Python, которая помогает визуализировать недостающие данные в датафреймах Pandas и определить частоту расположения пропущенных значений в датасете.
Вы можете выполнить приведенную ниже команду, чтобы установить Missingno:
pip install missingno
А эта запись поможет отобразить недостающие данные в виде гистограммы:
import pandas as pd
import missingno as msno
dataset = pd.read_csv('filename.csv')
msno.bar(dataset)
Заключение
Мы описали семь библиотек визуализации Python. Их наборы инструментов позволят вам достичь более эффективной и быстрой визуализации данных.
Возникает вопрос: “Зачем нам так много библиотек для построения графиков, когда есть мощная система Matplotlib?”. Очевидно, мы не можем отказаться от функционального разнообразия, которое предлагают эти библиотеки.
Каждая из них имеет свои преимущества, которые при правильном использовании могут дать более ожидаемые результаты, чем стандартные библиотеки. Для получения подробного обзора можете обратиться к официальной документации этих библиотек.
Читайте также:
- 4 простые визуализации данных в Python
- Создание дашбордов в Dash
- 10 инструментов Python для работы с изображениями
Читайте нас в Telegram, VK и Яндекс.Дзен
Перевод статьи Pranjal Saxena: 7 Unexplored Python Visualisation Packages You Must Know