Одним из важных аспектов работы в области науки о данных является способность эффективно передавать результаты анализа с помощью разных способов визуализаций.

Данные  —  это история в числах, а визуализация  —  это то, как вы рассказываете эту историю.

К сожалению, мы проводим больше времени, изучая свежие методы анализа и библиотеки, знакомясь с новыми наборами данных или трендами в алгоритмах машинного обучения и искусственного интеллекта, а про улучшение навыков визуализации забываем.

Не поймите меня неправильно. Знание новых технологий необходимо для успешной карьеры в сфере науки о данных. Но не менее важно научиться хорошо визуализировать и рассказывать истории.

Представьте: вы часами очищаете, изучаете и моделируете данные. Вы получаете точные и очень важные результаты. Но презентуете их скучно и посредственно. В итоге работа, на которую вы потратили столько сил, остается незамеченной.

Процесс изучения эффективной визуализации данных похож на освоение навыка увлекательного сторителлинга.

Выбор типа диаграммы, цвета и стиля сильно влияет на то, как другие люди воспримут ваши данные.

К счастью, есть простые рекомендации, которые помогут сделать визуализацию убедительной, интересной и привлекающей внимание.

В этой статье представлены 7 простых советов для повышения уровня визуализации на основе научных экспериментов и исследований.

Совет №1: чем проще, тем лучше

Цель визуализации  —  сделать так, чтобы другие могли легко понять информацию. Поэтому избегайте сложной и перегруженной подачи.

Каждый раз при создании визуализации обращайте внимание на соотношение данных и чернил (англ. data-ink ratio). Этот термин используется для обозначения количества данных по сравнению с избыточными элементами на графике: фоновыми эффектами / цветами и 3D-представлением данных.

Вместо многомерных графиков используйте такие свойства визуализации, как форма, цвет и толщина, чтобы можно было отличить разные наборы данных.

Для простой и эффективной визуализации соотношение данных и чернил должно быть высокое.

Изображение Sara A. Metwalli. Слева: низкое соотношение данных и чернил. Справа: высокое соотношение данных и чернил.

Совет №2: выбирайте правильный тип диаграммы

Когда вы создаете график, ориентируйтесь на тип данных. Это поможет выбрать правильную диаграмму и точно представить информацию.

Вот несколько полезных рекомендаций:

  1. Для категориальных данных подойдет гистограмма, если у вас больше 5 категорий, или круговая диаграмма, если категорий меньше 5.
  2. Для номинальных данных подойдет гистограмма, если данные дискретны, или линейная диаграмма / диаграмма с областями, если данные непрерывны.
  3. Если вы хотите показать взаимосвязь между значениями в наборе данных, используйте диаграмму рассеяния, пузырьковую диаграмму или линейную диаграмму.
  4. Для относительного сравнения значений, используйте круговую диаграмму, для точного  —  гистограммы.

Совет №3: используйте разные диаграммы для визуализации разных аспектов

Перед созданием диаграммы определитесь, что именно вы хотите показать: закономерность или детали? Чтобы это выглядело доступно, старайтесь отображать только один аспект за раз.

Если нужно показать две стороны данных, используйте два разных графика. Например, вы можете сделать линейную диаграмму для отображения деталей и тепловую карту, чтобы показать закономерность в данных.

Чтобы выделить различия и экстремальные значения на линейной диаграмме, используйте разные цвета.

Изображение Sara A. Metwalli. Слева: визуализация деталей. Справа: визуализация закономерностей.

Совет №4: выбирайте корректный диапазон осей

Диапазон ваших вертикальных и горизонтальных осей зависит от типа диаграммы и истории, которую вы рассказываете с ее помощью.

Например, если вы используете гистограмму и показываете только максимальные значения разных наборов данных, оси должны начинаться с 0.

Однако, если вы хотите показать точные числа колебания данных, то необходимо увеличить масштаб осей, чтобы они четко просматривались. Легче увидеть вариации в наборе данных, когда границы графика ближе к диапазону колебаний.

Изображение Sara A. Metwalli. Слева: общая разница. Справа: колебания.

Tip №5: преобразовывайте оси или данные

На решение использовать ли преобразование в вашей визуализации влияет как набор данных, так и цель диаграммы. Вы можете преобразовать два аспекта графика: оси и данные.

Преобразование осей

При построении набора данных можно использовать линейную или логарифмическую шкалу. Логарифмическая шкала часто применяется для отображения процента изменения за период времени, поэтому точки на шкале не расположены через равные промежутки.

Линейная шкала используется для отображения абсолютной разницы между различными уникальными точками вашего набора данных.

Изображение Sara A. Metwalli. Слева: абсолютное изменение. Справа: процент/темп изменения.

Преобразование данных

Людям иногда сложно понять логарифмические шкалы. Чтобы этого избежать, можно преобразовать данные. Например, вместо отображения абсолютных значений вы можете нормализовать их до среднего или определенного значения.

Совет №6: будьте внимательны с точками пересечения на диаграмме рассеяния

Иногда на диаграмме рассеяния два или более круга могут перекрывать друг друга, тем самым усложняя чтение данных. Также это может скрыть фактический размер определенного кластера на графике.

Чтобы избежать этой проблемы и сделать диаграмму рассеяния более понятной, используйте разную степень непрозрачности для ваших кругов. Это поможет четко показать все точки данных.

Еще один вариант  —  незакрашенные круги. Но для больших наборов данных он может не подойти. Для более четкой визуализации вы также можете изменить размеры кругов.

Изображение Sara A. Metwalli. Слева: закрашенные круги. Справа: незакрашенные круги.

Совет №7: внимательно выбирайте цветовую схему

Цвета могут сделать график как лучше, так и хуже. Поэтому внимательно отнеситесь к выбору цветовой схемы. В этом вам помогут следующие вопросы.

Виден ли цвет на разных устройствах?

Создав диаграмму на своем устройстве, мы иногда забываем проверить перед презентацией или собранием, как она будет отображаться у других.

Будет ли график четким на компьютере и телефоне? А как насчет освещения? Надо ли использовать высокую яркость экрана, чтобы диаграмма была лучше видна, или на нее это не повлияет?

Что я буду использовать для презентации диаграммы?

Например, если вы создаете диаграммы для печати, то важно учесть тип бумаги. Иногда цвет, четкий на экране, может не отображаться при печати на определенной бумаге.

Старайтесь использовать меньше цветов или родственные цвета. Если вы создаете тепловую карту, вам нужно использовать градиент одного цвета, а не разных. Иначе это может затруднить понимание вашей карты.

Изображение Sara A. Metwalli. Слева: удачная цветовая схема. Справа: избыточная цветовая схема.

Заключение

В большинстве случаев визуализация является лучшим и наиболее легкий способом презентации данных для широкой аудитории. Когда мы создаем диаграммы и рисунки, необходимо делать их простыми, понятными и удобными для чтения.

Помните, что ваши данные рассказывают историю, и ваша визуализация может сделать ее увлекательной или абсолютно неинтересной.

Следуя 7 простым советам, вы сможете быстро улучшить качество вашей визуализации:

  1. Чем проще, тем лучше.
  2. Выбирайте правильный тип диаграммы.
  3. Используйте разные диаграммы для визуализации разных аспектов.
  4. Выбирайте корректный диапазон осей.
  5. Преобразовывайте оси или данные.
  6. Будьте внимательны с точками пересечения на диаграмме рассеяния.
  7. Внимательно выбирайте цветовую схему.

Читайте также:

Читайте нас в Telegram, VK и Яндекс.Дзен


Перевод статьи Sara A. Metwalli: Data Visualization 101: 7 Steps for Effective Visualizations

Предыдущая статьяПолучение общих данных в Next.js одним запросом
Следующая статьяВнутренняя платформа МО Bigeye: цели и методы создания