Обычно, когда кто-то говорит о качестве применительно к исследованию данных, он подразумевает правильность проведения анализа данных и достоверность результатов. Я считаю такое определение слишком узким. Из моего более чем восьмилетнего опыта работы в аналитике я понял: чтобы анализ данных был проведен на достойном уровне, он должен сочетать в себе три фундаментальных элемента:
- ответ на актуальную потребность со своевременной точностью;
- надежная и проверенная методология, взятая за основу;
- доступность для сотрудников организации.
Поговорим об этом всем более подробно.
Ответ на актуальную потребность со своевременной точностью
Чтобы анализ данных был действительно эффективным, очень важно направить его на реальную, четко определенную потребность. Вы должны точно понимать, какая проблема решается, кого она касается, почему она актуальна в данный момент и как конкретно будут использоваться результаты анализа. Ясность этого понимания напрямую связана с ценностью анализа для конечных пользователей.
При этом крайне важно определить реальную потребность, а не мнимую. Ведь анализ должен быть не только теоретически полезным, но и практически применимым. Если вы определите реальную потребность, то в последний день работы над проектом, когда вы представите его заинтересованным сторонам, вас не спросят: “Ну и… что дальше?”. Есть разница между предоставлением качественных и полезных данных и информацией, которая хоть и интересна, но не может принести немедленной пользы.
Например, компания в сфере розничной торговли может испытывать потребность в широком анализе демографических характеристик покупателей, но на самом деле ей необходимо понять покупательские предпочтения конкретной возрастной группы. От этого будут непосредственно зависеть маркетинговые стратегии и решения по оборудованию, что окажет серьезное влияние на бизнес-операции.
Не менее важна и своевременность анализа. Этот аспект включает в себя два ключевых элемента: актуальность потребности на текущий момент и оперативность анализа.
- Актуальность потребности. Потребности бизнеса часто зависят от времени и могут быстро меняться, особенно если вы работаете в динамично развивающейся организации. Анализ, направленный на решение актуальной проблемы, гораздо ценнее, чем тот, который был проведен слишком поздно или слишком рано. Например, анализ потребительских тенденций в преддверии большого праздничного сезона может оказаться бесценным для компании с точки зрения формирования запасов и маркетинговых мероприятий, но если он будет осуществлен после начала сезона, то бизнес-возможности можно считать упущенными.
- Оперативность анализа. Скорость проведения анализа также имеет решающее значение, поскольку она связана с актуальностью потребности. Это важный фактор, который необходимо учитывать, поскольку иногда приходится искать компромисс между тщательностью исследования и скоростью. Например, если в социальных сетях появился новый тренд и компания хочет провести анализ, чтобы извлечь выгоду из завирусившейся темы, вам нельзя тратить два месяца на получение результатов.
Таким образом, шансы на успех анализа данных значительно выше, если он точно определяет и удовлетворяет реальную, текущую потребность, а также если он проводится своевременно, обеспечивая максимальную релевантность и эффективность.
Структурированная методология
Слишком часто я сталкиваюсь с примера анализа данных, в которых не используется стандартная методология. Это не обязательно означает, что исследование не даст хороших результатов. Тем не менее, если вы не следуете проверенной методологии, вы сильно снижаете свои шансы на качественную отдачу от работы.
Структурированный/стандартизированный подход обеспечивает тщательность исследования, а также повышает достоверность и воспроизводимость анализа.
Одна из методологий, которая кажется мне довольно простой, — это система CRoss Industry Standard Process for Data Mining (CRISP DM). Проработав почти десять лет в сфере исследований данных, я все еще использую ее в качестве основного инструмента, когда начинаю анализ с нуля. Структура этой методологии, считающейся стандартным процессом в науке о данных и анализе данных, состоит из 6 основных этапов.
- Понимание бизнеса. На этом этапе аналитик данных должен досконально разобраться в бизнес-контексте запроса: где та болевая точка, которую мы пытаемся “залечить”, что мы делали в прошлом, кто действующие лица, каковы наши риски, ресурсы и т. д., а также, что очень важно, каковы критерии успеха проекта.
- Понимание данных. Эта фаза включает в себя знакомство с данными. Речь идет об описательном и исследовательском анализе данных, а также о выявлении проблем с качеством данных. Это ваше собственное предварительное исследование, в ходе которого вы начинаете постигать нюансы и потенциал данных.
- Подготовка данных. Суть этой фазы заключается в отборе данных, с которыми вы хотите работать, с обоснованием их включения/исключения, а также в очистке и преобразовании данных в формат, пригодный для анализа. Все это напоминает подготовку ингредиентов перед приготовлением блюда, которая, как известно, очень важна для получения хорошего результата.
- Моделирование. Слово “моделирование” может быть кого-то испугать. Но речь идет всего лишь о создании определенного порога для метрики “правда/ложь” (например, если проект заключается в понимании/определении причин оттока покупателей). На этом этапе к подготовленным данным применяются различные методы моделирования, чтобы вы могли сравнивать их друг с другом и понимать, какие из них наиболее успешны.
- Оценка. Модели критически оцениваются на предмет соответствия бизнес-целям и критериям успеха, установленным на первом этапе Таким образом, вы получаете инсайты, которые можно использовать для возвращения назад и пересмотра понимания бизнеса.
- Развертывание. Заключительный этап включает в себя применение модели к реальным данным и ситуациям, эффективное использование результатов анализа в действии и начало задействования полученных знаний для оптимизации работы команды.
Методология CRISP DM повышает вероятность того, что анализ будет более надежным, поскольку заставляет пройти через все эти этапы, оставляя при этом место для творчества.
Обеспечьте усваиваемость работы
Когда мы говорим об усваиваемости, то подразумеваем не только упрощение сложной информации и облегчение восприятия презентаций. Сюда также входят два неотъемлемых аспекта: обеспечение глубокого уровня понимания со стороны клиентов и предоставление им возможности применить эти знания на практике. В качестве примера можно привести работу организма, который не только расщепляет пищу, но и использует питательные вещества для обеспечения различных функций.
Обеспечение глубокого уровня понимания со стороны аудитории (клиентов)
Для достижения этой цели необходимо сделать данные доступными и вызывающими отклик у аудитории. Именно здесь решающую роль играют эксперты в предметной области. Привлечение таких специалистов к процессу анализа на ранних этапах позволяет использовать их знания в конкретной сфере для формирования и интерпретации данных, обеспечивая соответствие анализа реальному контексту и его представление в форме, удобоваримой для целевой аудитории.
Еще одной ключевой стратегией повышения усваиваемости является внедрение модели “Stage-Gate” (процесса управления портфелем). Она предполагает регулярные встречи с заинтересованными сторонами или командой-получателем результата с целью отслеживания апдейтов. Такой подход позволяет не перегружать их большим объемом сложной информации в конце исследования. Вместо этого заинтересованные стороны вовлекаются в процесс и постепенно усваивают новые знания. Модель “Stage-Gate” также открывает возможности для постоянной обратной связи, обеспечивая соответствие анализа меняющимся потребностям и ожиданиям аудитории.
Представьте, что вы работаете в крупной организации, внедряющей новую стратегию, основанную на данных. Если команда разработчиков данных представляет только окончательный анализ без предварительного вовлечения заинтересованных сторон, они могут не понять всех нюансов или не увидеть их соответствие специфике своего бизнеса. Однако если привлекать заинтересованных лиц к работе через регулярные промежутки времени — путем периодических презентаций или семинаров, — они лучше познакомятся с данными и последствиями их использования. Они могут предложить ценную обратную связь, направляя анализ в наиболее важные для них сферы, тем самым обеспечивая понятность конечного результата, возможность его использования и его соответствие актуальным потребностям.
Предоставление аудитории возможности применить полученные знания
Действенность указанных подходов неразрывно связана с их применением в реальных приложениях или решениях. Речь идет о том, чтобы клиенты могли эффективно использовать полученные знания для достижения ощутимых результатов. Необходимо продумать связующее звено между анализом и реальными результатами, а также то, как вы поможете устранить препятствия, мешающие применению идей.
Представьте, что вы работаете над проектом, целью которого является определение причин оттока пользователей. Чтобы сделать исследование более “удобоваримым”, вы можете создать дэшборд, позволяющий заинтересованным сторонам понять, как конкретно выглядят результаты. Есть и другие варианты: проведение семинаров, разработка интерактивных визуализаций и т. д. Цель у этих мероприятий одна — облегчить команде работу.
Подводя итоги, можно сказать следующее: усваиваемость проекта по анализу данных значительно повышается, если с самого начала привлекать к работе экспертов и поддерживать постоянную связь с заинтересованными сторонами. Такой совместный подход гарантирует не только понятность исследования, но и непосредственную его актуальность и ценность для тех лиц, кому оно предназначено.
Вывод
Успешный анализ данных — это сплав технического мастерства, стратегического подхода и практической применимости. Дело не только в выполнении ряда определенных шагов, а в понимании и адаптации этих шагов к уникальному контексту каждого проекта. Своевременность, правильное выполнение и удовлетворение реальных потребностей организации — вот столпы, которые поддерживают мост, соединяющий анализ данных с успехом организации. Конечная цель — преобразовать данные в действенные идеи, которые повысят ценность и послужат основой для принятия стратегических решений.
Читайте также:
- SQL: комплексный анализ оттока клиентов
- 4 альтернативы Pandas: ускоренное выполнение анализа данных
- Разведочный анализ данных в одной строке кода
Читайте нас в Telegram, VK и Дзен
Перевод статьи Jordan Gomes: The Art of Making Quality Data Analyses