Пусть говорят… расходящиеся гистограммы!

Термин “divergere” происходит от латинского языка и означает расхождение. Среди его синонимов: разделение, разногласие, различие, пересечение и столкновение мнений. Он отражает разнообразие точек зрения или их противостояние в отношении определенного вопроса. Данное понятие также подразумевает, что различие между этими источниками разногласий усугубляется. Вполне закономерно, что должен быть способ наглядно представить этот аспект человеческого бытия. Для этих целей большего всего подходит такой вид диаграммы, как расходящаяся гистограмма.

Рис. 1. Расходящаяся линейчатая гистограмма с накоплением. SD: Полностью не согласен; D: Не согласен; N: Не определился; A: Согласен; SA: Полностью согласен 

Назначение. Расходящаяся гистограмма позволяет сравнивать разные категории и благодаря своей особой структуре сопоставлять их числовые значения. Главным образом она предназначена для точного отображения результатов анкет или опросов, в особенности тех, что используют шкалу Лайкерта. Расходящаяся гистограмма способствует быстрой визуализации соотношения предпочтительных, желательных или положительных ответов с их противоположностями. 

Структура. Традиционный вариант гистограммы состоит из комбинации двух горизонтальных полос на одном уровне, обе из которых берут начало от общей вертикальной линии в центре, при этом одна из них отходит вправо, а другая  —  влево. Как и во всех гистограммах, длина каждой полосы пропорциональна отображаемому числовому значению. Полосы представляют категории, разделенные друг от друга свободным пространством. 

Лучше всего кодирование расходящейся диаграммы реализуется, когда сравнению подвергаются только две альтернативы. Именно ее L. Verde Arregoitia предпочел для представления двух параллельных трансект с растительностью на разных склонах оврага, где в 5 выборочных точках регистрировалось соотношение местных и интродуцированных растений. Благодаря ей отчетливо видна разница в количестве их образцов. Расходящиеся гистограммы также называются двусторонними, противоположно направленными или скользящими.

Рис. 2. Расходящиеся гистограммы L. Verde Arregoitia

Для разграничения исходящих в противоположные стороны полос существуют разные цвета и их оттенки. Значения с левой стороны от центральной линии не обязательно указывают на отрицательные результаты, но обычно являются нежелательными или неудовлетворительными. Полосы предпочтительно располагать в порядке возрастания или убывания, чтобы упростить процесс передачи информации. 

Наиболее часто применяются расходящиеся линейчатые гистограммы с накоплением (рис.1). Они представляют собой удлиненную версию горизонтальных составных полос с добавлением центральной линии. Каждая полоса разделена на горизонтальные прямоугольные сегменты, располагаемые друг за другом. Обозначаемые ими числовые значения могут быть абсолютными или процентными (эквивалент одиночных составных полос и их аналога, представленного 100%). 

Такого рода гистограммы широко применяются для отображения результатов опросов, обработанных по шкале Лайкерта. Они позволяют сравнивать ответы респондентов, распределенные по разным демографическим категориям. Как правило, сегменты, отображающие положительные результаты, располагаются по правую сторону центральной линии, а сегменты, соответствующие отрицательным результатам,  —  по левую. Нейтральные ответы располагаются над центральной линией. 

Шкала Лайкерта была разработана социальным психологом Ренсисом Лайкертом как часть его докторской диссертации в 1923 году. Она используется в опросах обратившихся за консультацией людей, где им предлагается оценить степень своего согласия с предложенными суждениями. Стандартная шкала содержит 5 возможных ответов: полностью не согласен, не согласен, не определился, согласен, полностью согласен. Хотя данный вариант наиболее широко распространен, некоторые авторы задействуютшкалы с разным количеством ответов (рис. 4). Существуют их разновидности, построенные по методу семантического дифференциала и включающие только две оценки: интересно или неинтересно. Визуальные шкалы и смайлики также являются внетекстовым способом представить возможные варианты. 

Рис. 3. Смайлики для шкалы Лайкерта. 

Следующая гистограмма отображает результаты опроса, проведенного в США до президентских выборов 2016 года (рис.4). Опрос выявлял отношение к политике безотносительно к избирательному процессу в зависимости от разных демографических категорий: возраста, пола, принадлежности к политической партии, уровня образования и расы. Предлагалось 4 возможных ответа: 2 положительных, означающих постоянную заинтересованность в политике, и 2 отрицательных, свидетельствующих о равнодушном отношении к ней. Как видно, молодежь менее интересуется политическими вопросами, чем поколение 60-х годов и старше. Похожие показатели наблюдаются в категории образования: 51% получивших университетскую или более высокую степень большую часть времени следят за политическими событиями, тогда как люди, не окончившие среднюю школу, демонстрируют полнейшую отстраненность. Расходящаяся линейчатая гистограмма с наполнением, несомненно, представляет собой очень эффективный способ визуально отобразить значительный объем информации в относительно небольшом пространстве, осуществляя при этом сравнение, противопоставление и передачу данных. Разграничение 4 вариантов передается соответствующей цветовой гаммой.  

Рис. 4. Расходящаяся гистограмма отображает ответы опроса. 

В 2011 году Ричард Хайбеггер и Наоми Роббинс отчаянно встали на защиту расходящихся линейчатых гистограмм с наполнением в своей работе “Plotting Likert and Other Rating Scales” (“Построение шкалы Лайкерта и других оценочных шкал”). Авторы проиллюстрировали, переосмыслили и подвергли критическому анализу ряд графических методов, задействованных в исследованиях с оценочными шкалами, такими как шкала Лайкерта. Они сравнили расходящиеся гистограммы со стандартными и множественными их разновидностями, а также гистограммами с группировкой и наполнением. Сравнение с ними также прошли графики, лепестковые, ленточные и вафельные диаграммы. Авторы всегда приходили к выводу, что расходящиеся линейчатые гистограммы с наполнением наиболее оптимальны для сравнения результатов опроса по демографическим, профессиональным и другим категориям. 

У расходящихся линейчатых гистограмм с наполнением есть ряд недостатков, свойственных обычным гистограммам такого типа: с увеличением числа сегментов усложняется зрительное восприятие и передача информации. По этой причине число сегментов не должно превышать 5. Вместе с тем их отличает одно преимущество  —  центральная линия, с которой контактируют оба сегмента, что упрощает их сравнение. 

Python не располагает специальной функцией для создания расходящихся гистограмм. Чаще всего используют горизонтальную гистограмму с наполнением (barh(stacked = True)), за которой следует инструкция axvline для отрисовки центральной вертикальной линии. Существует также способ с функцией hlines, которая чертит горизонтальные линии с определенным значением linewidth, тем самым имитируя полагающиеся горизонтальные полосы. Обе стратегии требуют предварительного кода, определяющего длину и последовательность сегментов для горизонтального наполнения. Заранее стоит побеспокоиться об освоении Tableau, Power Bi, Excel и других инструментов визуализации для достижения качественного и профессионального результата. 

На расходящуюся гистограмму очень похожа гистограмма “бабочка” с двумя горизонтальными полосами из расчета на категорию или переменную. Такой график отображает сравнение только двух наборов данных при помощи двух горизонтальных полос с центральной линией, напоминающих крылья бабочки. В гистограммах “бабочках” между полосами существует пространство для имен сравниваемых переменных (рис. 5). Некоторые инструменты визуализации отождествляют их с диаграммами “торнадо”. Однако последние обычно предназначены для анализа неопределенности и чувствительности выходной переменной от изменений в избранной входной переменной. 

Рис. 5. Гистограмма “бабочка” 

Не следует путать гистограммы с наполнением с демографическими пирамидами, которые являются комбинацией двух горизонтальных гистограмм, отображающих возрастно-половую структуру населения. Данные о мужчинах принято изображать слева, а о женщинах  —  справа. 

Этот вид диаграммы представляет распределение населения страны, области или континента по возрасту и полу. Вертикальная ось показывает однолетние или пятилетние возрастные группы, а горизонтальная  —  общее количество или процент мужчин или женщин в каждой группе. Обычно отображается пара демографических пирамид, относящихся к определенному времени или месту, для отслеживания изменений или тенденций в исследуемом составе населения.  

Рис. 6. Демографические пирамиды.

Выводы

Расходящиеся графики позволяют сравнивать разные показатели или категории. В основном они предназначены для визуального анализа опросов или анкет, разработанных с помощью шкалы Лайкерта. Однако всегда следует обращать внимание на то, оправдывает ли конечный визуальный результат дополнительно потраченные усилия на их реализацию.

Читайте также:

Читайте нас в Telegram, VK и Яндекс.Дзен


Перевод статьи Darío Weitz: Diverging Bars, Why & How