Data Science

Что же такое data science? Data science — это научная дисциплина, которая занимается поиском истины и использует данные для получения знаний и идей. Data science стремительно развивается и уже представляет огромное значение для каждой отрасли и области науки. Тем не менее она все еще находится на начальном этапе развития. 

КАКОЕ ЗНАЧЕНИЕ ИМЕЕТ DATA SCIENCE?

Запустить техническую компанию, а также разработать и развить хороший продукт, стало намного проще благодаря современным средствам коммуникации, развитию облачных хранилищ, снижению расходов на вычисления. В результате, время, за которое продукт охватит 100 миллионов активных пользователей в месяц, значительно сократилось и продолжает уменьшаться. Например, iTunes понадобилось около 100 месяцев, чтобы достичь 100 миллионов активных пользователей в месяц в 2003 году. Для того, чтобы сделать то же самое, Pokemon Go понадобилось всего несколько дней. На диаграмме ниже показаны другие примеры, начиная с телефона.

Увеличение количества разработанных продуктов и продаж устройств с выходом в интернет, а также увеличение времени, проводимого в сети, вызвало резкий скачок объема данных о взаимодействии с пользователем. В результате появился огромный интерес к извлечению этих данных и получению ключевых идей для разработки лучших продуктов. Теперь конкурентоспособность компании зависит от того, насколько успешно она применяет аналитику. Таким образом, специалисты по data science пользуются большим спросом, а одна команда хороших специалистов может как создать, так и прервать производство продукта.

Команды разработчиков используют данные для получения четырех конкретных результатов:

  1. Оценка состояния бизнеса: Ключевым результатом анализа продукта является оценка состояния продукта или бизнеса. Успех продукта определяется с помощью цели и метрики, поэтому необходимо проследить за движением метрики, чтобы убедиться, что продукт движется к достижению цели. Аналитики выявляют резко отклоняющиеся значения, разбираются в причинах изменений в метрике и разрабатывают информационные панели, отчеты, визуализации и т. д.
  2. Продажа правильных продуктов и функций: еще одна роль аналитики заключается в создании правильных продуктов и функций. Большинство компаний проводят несколько экспериментов и продают продукт, оценив результаты этих экспериментов. Как правило, специалисты по data science участвуют в разработке экспериментов, определяют гипотезы для заявлений и занимаются руководством команды разработчиков по постоянной оптимизации продукта.
  3. Прогнозирование результатов и эффективность систем производства . Еще одна задача для специалистов по data science заключается в разработке прототипов или моделей и улучшении эффективности систем производства с помощью ИИ/МО. Эти специалисты обучают модель определенному явлению, чтобы предсказать будущие ожидания и тенденции.
  4. Установка roadmap и стратегии для продукта. Изучение и анализ действий пользователей и явлений порождают практические идеи, приводящие к созданию roadmap и стратегии для продукта. Создание data-driven roadmap и стратегий — важный результат работы команды аналитиков мирового класса.

В результате в индустрии появилось два типа специалистов по data science  — специалисты по анализу продукта и разработчики алгоритмов.

ЧЕМ ЗАНИМАЮТСЯ СПЕЦИАЛИСТЫ ПО DATA SCIENCE?

Звание специалиста по data science охватывает множество ролей, которые различаются в зависимости от компании и индустрии. Однако, как правило, есть два основных лагеря специалистов по data science:

  1. Специалист по анализу продукта, предоставляющий data-informed истории об изменении продукта или стратегии. Например, система SMS-уведомлений не работает в Индии. В результате, следует сосредоточиться на исправлении этой системы, чтобы активизировать рост.
  2. Главная задача разработчиков алгоритмов заключается во включении data-driven функций в продукты (например, оптимизация рекомендаций или результатов поиска). Например, в Индонезии вырос уровень мошенничества. Следует разработать новую модель, направленную на недавнюю тенденцию мошенничества в Индонезии.

Главная задача специалистов по анализу продукта заключается в постановке цели и информировании roadmaps продукта и стратегий. Они участвуют в модернизации продукта: оценивают его состояние и предоставляют связанные с продуктом решения (посредством эксперимента). Результатом работы специалистов по анализу продукта является документ для команды разработчиков. Он содержит поддающиеся количественной оценке проблемы, выявленные возможности и основанные на данных рекомендации и решения.

Основная задача разработчика алгоритмов заключается в использовании данных для улучшения производительности продукта и достижения конечной цели. Как правило, конечной целью является прогнозирование результатов или создание систем производства. Разработчики алгоритмов используют машинное обучение и другие сложные алгоритмические техники для создания предсказаний, основанных на информации из большого количества данных. Как правило, разработчики алгоритмов создают прототипы предложенных решений и работают непосредственно с командами инженеров, чтобы реализовать их на производстве. Результат работы разработчиков алгоритмов — это прототип кода и документация, которые предоставляются команде инженеров.

Для обоих типов специалистов требуется наличие аналитического склада ума, количественных навыков и способности расставлять приоритеты. Довольно трудно найти человека, подходящего под все эти категории. Разработчику алгоритмов требуется наличие углубленных технических знаний, таких как машинное обучение и искусственный интеллект, а также наличие навыков разработки программного обеспечения. Специалисты по анализу продукта в первую очередь должны обладать навыком решения проблем. 

Разработчики алгоритмов требуются лишь в некоторых организациях. Однако все компании, обладающие большой базой пользователей, нуждаются в специалистах по анализу продукта. Они участвуют в управлении продуктом, помогают достичь конкурентоспособности, а также занимаются решением других стратегических задач.

ЭВОЛЮЦИЯ DATA SCIENCE

Представьте, что существует машина, которая знает о вас абсолютно все. Она делает покупки, знает, какую еду вы любите, и даже готовит для вас. Знает ваши возможности и может принимать решения за вас. Знает, что будет лучше для вас, и планирует вашу жизнь. Этот мир ждет нас в далеком будущем, а для его достижения требуется развитие искусственного интеллекта. 

В идеальном мире с идеальной информацией и полным пониманием всех драйверов системы и способов их взаимодействия эти два подхода могли бы слиться воедино. Для построения идеальной модели нужно полностью понимать изучаемое явление, поскольку связь между данными и явлением может описать лишь идеальная модель (и связанный с ней богатый набор функций). Для достижения такого уровня совершенства, а также прогресса в промежуточный период, нужно развивать data-informed принятие решений. Следовательно, нужно продолжать расширение процесса принятия решений с помощью других субъективных показателей, которые пока не поддаются количественной оценке. По мере углубления понимания отношений между объектами, все больше процессов будут автоматизированы, а будущее станет более data-driven, чем data-informed. Тем не менее, data-informed принятие решений сохранит значение в течение следующих нескольких десятилетий, а data-driven принятие решений будет развиваться благодаря заслугам data-informed специалистов.

Чтобы разобраться в различиях между data-informed и data-driven принятием решений, рассмотрим несколько примеров.

  • Постановка целей. Хорошие цели измеримы и поддаются количественной оценке. Умение определять цель и следовать ей постепенно становится data-driven. Например, отслеживание активных пользователей Facebook можно полностью автоматизировать. Однако установление правильных квартальных и годовых целей для увеличения числа активных пользователей и доходов можно автоматизировать лишь частично. Таким образом, этот процесс останется по-прежнему data-informed.
  • Определение roadmap и стратегии. Установление roadmap и стратегии не поддаются количественной оценке и, следовательно, требуют применения data-informed подходов. Например, с помощью данных можно разработать roadmap для увеличения ежедневного количества активных пользователей, сосредоточив внимание на SMS-уведомлениях. Хороший roadmap учитывает актуальные цели и их движущие силы, средства воздействия команды разработчиков продукта, а также все возможные варианты действий. Во многом эти процессы несут качественный характер, поэтому разработка roadmap и определение стратегии в первую очередь являются data-informed.
  • Предсказание результатов. Предсказание результатов по большей части относится к data-driven. Например, чтобы определить, стоит ли показывать ли историю пользователю, потребуется понимание нескольких факторов. К ним также относится вероятность того, что пользователь откроет или прочитает эту историю. Компании обычно разрабатывают модели, которые выполняют повторяющиеся действия, чтобы предсказать конкретный результат.
  • Эффективность систем производства. Для таких компаний, как PayPal, выявление мошеннических действий в транзакциях вручную обходится очень дорого. В результате, для обеспечения эффективности систем производства и автоматизации расчета вероятности неудачной транзакции по большей части используется машинное обучение. Большая часть процесса принятия решений после оценки вероятности также автоматизирована. Однако в тех областях, где уровень конфиденциальности при оценке вероятности ниже, процесс принятия решений можно отнести к data-informed.

ВЫВОДЫ

  • За последние годы улучшение продуктов и монетизация с помощью данных стало конкурентным преимуществом, а хорошая организация данных —  определяющим фактором.
  • Специалисты по обработке данных принимают ключевые решения о продуктах компании и создают алгоритмы следующего поколения для улучшения процесса принятия решений.
  • Мир продолжит превращение в data-driven, однако data-informed принятие решений сохранит актуальность.

Перевод статьи Sequoia: Why Data Science Matters