Вы когда-нибудь задумывались, почему двоичный цифровой мир, представленный нулями и единицами,  —  живительная сила науки о данных  —  странным образом напоминает кота Шредингера? Он одновременно и мертв, и жив, и интригует, и пугает. Пришло время приоткрыть занавес и обнажить скрытые истины, которые безмолвно управляют “Титаником” этой дисциплины. Ведь мы вступаем в новую эру, в которой наука о данных становится нашим компасом. Ведя нас сквозь информационные джунгли, она готовит нам инсайты  —  столь же мощные, как умение поколения Z создавать вирусные мемы.

Дело не только в цифрах

Под холодным и твердым покровом математических моделей и статистических методов скрывается глубоко человечная сущность науки о данных. Первая неочевидная истина заключается в том, что эта дисциплина не сводится только к подсчету цифр. Исследователям данных приходится выслушивать истории, которые рассказывают данные, раскрывать сюжеты, переплетающиеся в наборах данных. С этим столкнулась и Ясмин  —  специалист по исследованию данных стартапа из сферы здравоохранения. Пытаясь построить модель для прогнозирования результатов повторной госпитализации, она обнаружила, что включение историй из жизни пациентов повышает точность модели.

“Данные  —  это выражение мнений и желаний людей. Цифры не лишены эмоций: они повторяют наш выбор, отражают наши предубеждения. Если вы внимательно прислушаетесь к ним, они расскажут вам свою историю”,  —  делится Ясмин. Такой человеко-ориентированный подход к науке о данных лежит в основе ее работы.

Контекст  —  это главное

Каждый набор данных рождается в определенном контексте, подобно тому как легендарная сага “Звездные войны” разворачивается на уникальном фоне далекой-далекой галактики. Игнорировать контекст  —  вторую неочевидную истину  —  все равно что смотреть фильм “Мандалорец”, не будучи знакомым со вселенной “Звездных войн”.

Вспомним Джона Сноу (не из “Ночного дозора”, а из истории, связанной с водоразборной колонкой на Брод-стрит). Этот врач XIX века и пионер эпидемиологии обнаружил источник вспышки холеры, исследовав случаи заболевания в географическом контексте. Если бы Сноу не учитывал более широкий контекст, колонка на Брод-стрит продолжала бы подавать не только воду.

Даже данные могут быть предвзятыми

Данные  —  это новичок в науке, который, как принято думать, не может лгать. А вот и третья неочевидная истина  —  может. При обучении моделей машинного обучения, если входные данные искажены, то и выходные данные модели унаследуют ту же искаженность.

Рассмотрим инструмент искусственного интеллекта Amazon для подбора персонала, который, как выяснилось, предвзято относится к женщинам. Модель была обучена на резюме, поданных за 10 лет, большинство из которых были от мужчин, что привело к созданию гендерно предвзятого ИИ. Данные  —  не просто цифры, а зеркало, отражающее мир со всеми присущими ему предубеждениями.

Возможности науки о данных ограничены

Наука о данных может показаться золотым снитчем в технологическом квиддиче, но даже она имеет свои ограничения. Она не является волшебной панацеей, и считать ее таковой  —  все равно что ожидать, что приложение-калькулятор в телефоне решит все ваши финансовые проблемы.

Четвертая истина заключается в том, что, хотя наука о данных и помогает принимать решения, она не в силах заменить человеческую интуицию, опыт и суждения. Помните финансовый кризис 2008 года? Сложные алгоритмы, предсказывавшие риски, не смогли предвидеть крах. Как гласит старая пословица, “инструмент эффективен лишь настолько, насколько эффективен его пользователь”.

Необходимость соблюдать этические нормы

Последняя истина связана с этикой  —  аспектом науки о данных, который часто замалчивается. По мере расширения сферы применения науки о данных этические соображения, такие как конфиденциальность, согласование и правомерное использование данных, становятся столь же важными, как и понимание разницы между контролируемым и неконтролируемым обучением.

Возьмем, к примеру, эксперимент Facebook (признан экстремистской организации на территории РФ) по изучению эмоциональных реакций пользователей, в ходе которого соцсеть манипулировала их данными, что вызвало дискуссию об этическом надзоре. В этом контексте наука о данных похожа на Человека-паука  —  кому многое дано, с того много и спросится.

Свод негласных правил

Подведем итоги:

  1. Наука о данных  —  не просто цифры, а истории, которые рассказывают данные.
  2. Контекст  —  это главное: он придает данным смысл.
  3. Данные могут быть необъективными, их интерпретация субъективна.
  4. Возможности науки о данных ограничены, она не может заменить человеческую интуицию и суждения.
  5. Этические нормы в области науки о данных не подлежат обсуждению: они должны лежать в основе работы.

Читайте также:

Читайте нас в Telegram, VK и Дзен


Перевод статьи Mark: 5 Hidden Truths of Data Science No One is Talking About

Предыдущая статьяНужно ли дизайнеру уметь писать код?
Следующая статьяПринципы SOLID в инженерии данных. Часть 1