Наука о данных

7 способов раскрыть жульничество аналитика данных

06.07.2020

Не имеет значения, являетесь ли вы крупным или малым предпринимателем, инвестором, частью менеджерского звена компании, судьёй на марафоне программирования или иным участником технологической индустрии, рано или поздно вы окажетесь в ситуации, где кто-либо пытается “продать” вам свой “ИИ-продукт”, “ПО машинного обучения” или какое-то другое сочетание вычурных слов. Если такая ситуация случилась с вами, будет естественным чувствовать нехватку знаний и опыта для принятия взвешенного решения. Стойте на своём и не позвольте себя обыграть! Ниже приведены 7 здравых способов, которые помогут вам пробиться через навязываемую чушь и понять истинную ценность предложения по машинному обучению (ML), которое вам пытаются продать.

1. “Мы использовали ИИ, чтобы…”

Будьте очень внимательны, когда кто-то начинает говорить вам про “ИИ”. Хотя, вероятнее всего, это изощрённый маркетинг, здесь также может скрываться откровенная попытка абстрагировать сильно усложнённые детали, чтобы якобы вас не утруждать. Сделайте вид, что вы верите, НО при этом углубитесь в детали. Выясните побольше о том, какую именно модель машинного обучения они использовали и попросите объяснить её по принципу аналогии.

“Если вы не можете объяснить что-либо простыми словами, значит вы сами не понимаете этого до конца”, — Альберт Эйнштейн.

Вот ещё несколько критических вопросов, которые вы можете задать:

Какие ещё методы (модели/алгоритмы/техники) вы пробовали, и каковы были результаты в сравнении с выбранным решением? (По возможности просите графическое обоснование).
Почему вы предпочли именно этот метод, а не другие?
Почему вы считаете, что выбранный метод превосходит остальные в обработке этих данных?
Решал ли кто-нибудь ещё похожую задачу? Если да, то какой метод использовали они?

По началу вы не обязательно будете понимать все детали ответов на эти вопросы, но нужно спрашивать, прояснять и стараться понять, как можно больше.

На своём опыте я не встречал ни одной концепции машинного обучения, которую нельзя было бы объяснить через аналогию. Поэтому если обсуждение большого числа технических деталей для вас слишком сложно, просите объяснить их с более высокого уровня. Такой критический подход не только расширит ваше понимание, но также покажет, насколько хорошо было продумано решение. (Кроме того, это покажет, что ваша комната предназначена для совещаний, а не для впаривания. ?)

2. Выживает тот, кто приспосабливается

В 90-е и ранние 2000-е фильтр спама в вашем почтовом ящике искал орфографические ошибки и другие простые признаки, чтобы по ним автоматически отправлять письмо в соответствующую папку. Теперь же спаммеры стали умнее, и определять их письма стало гораздо сложнее. Моделям машинного обучения, используемым современными почтовыми сервисами, пришлось приспосабливаться и становиться более изощрёнными, чтобы правильно обнаруживать письма со спамом.

“Любой провал — это провал в адаптировании, любой успех — это успешная адаптация”, — Макс МакКеон.

Поскольку время идёт, а вводные данные развиваются, вы обязательно должны прояснить, насколько предложенная вам модель будет предрасположена к переобучению под новые данные или замещению на более качественный образец. Это очень важно, так как если она будет иметь ограниченный “срок годности”, то вы заслуживаете это знать.

3. Мусор к мусору

Модель машинного обучения хороша лишь настолько, насколько хороши использованные для неё данные. Следовательно вам стоит убедиться в качестве данных, использованных для обучения предложенного вам образца. Несмотря на то, что “качество” обучающих данных сложно определить, и к тому же оно может отличаться в зависимости от контекста, есть один простой способ. Спросите: “Насколько обучающие данные схожи с теми, с которыми модели предстоит работать в реальных условиях, и в какой степени они их представляют?”

“Мы верим в Бога, а все остальные — лишь источники (качественных) данных”, — У. Эдвардс Деминг.

Неважно, насколько изощрённой или новейшей может быть модель машинного обучения. Если она была обучена на данных низкого качества, то результаты её работы будут плачевны.

4. Больше, ещё больше!

В целом, чем больше данных использовалось для обучения модели, тем лучше она работает (при прочих равных). Это особенно верно для моделей глубокого обучения. Вы можете представить модель машинного обучения как студента выпускного класса, отрабатывающего вопросы к вступительному экзамену. Отработка большего количества и разнообразия вопросов повысит вероятность успешной сдачи студентом этого экзамена.

“Это величайшая ошибка — начать строить теории в отсутствии достаточных данных”, — Шерлок Холмс.

Очень важно убедиться, что для обучения модели было использовано достаточное количество данных. Как понять, что их достаточно? Сложно сказать, сколько необходимо данных, но чем больше, тем лучше! В идеале данные нужно брать из надёжных источников, которые должны использоваться исчерпывающе.

5. Интерпретируемость

Почему бы вам не объяснить мне это так, будто я восьмилетний мальчишка

В машинном обучении зачастую присутствует компромисс между тем, насколько хорошо работает модель, и тем, насколько легко объяснить её поведение (особенно низкого качества). Главным образом, для сложных данных склонны справляться лучше более изощрённые и сложные модели. Тем не менее, поскольку эти модели более сложны, становится трудно объяснить влияние вводных данных на итоговый результат. Например, давайте представим, что вы используете очень сложную модель машинного обучения для прогнозирования продаж продукта. Вводными данными для этой модели будут деньги, затраченные на рекламу по телевидению, в газетах и по радио. Сложная модель может дать вам очень точные прогнозы продаж, но может не показать, какое из трёх СМИ даёт большую отдачу и стоит затраченных средств. С другой стороны, более простая модель может дать менее точный результат, но сможет объяснить, какое направление СМИ оптимально. Вам нужно быть в курсе этих компромиссов между качеством модели и интерпретируемостью. Это существенно, поскольку положение точки баланса на шкале между объяснимостью и качеством должно зависеть от вашей задачи, а значит и определяться должно тоже вами.

6. Выбирайте метрику обдуманно

Точность является очень распространённой метрикой для оценки качества классификации модели ML. Например, модель для классификации изображений кошек и собак с точностью 96% может быть признана очень хорошей. Это означает, что из 100 изображений кошек и собак модель способна верно угадать 96. А теперь представьте, что банк пытается применить ту же метрику для классификации мошеннических транзакций. Классификатор мошенничества может легко иметь точность 96%, поскольку такие транзакции очень редки. Тем не менее при перехвате мошеннических транзакций недостаточно не ошибиться в 96% случаев. Здесь важно ошибиться как можно меньше и иметь возможность перехватить максимальное число таких транзакций, потому что ошибочная классификация оставшихся 4% переводов как честных может принести огромный ущерб.

“Измерение — это превосходно. Но только пока вы не начинаете измерять то, что легко измерить, вместо того, что важно”, — Сет Годин.

В случае с примером банковского мошенничества число ложных отрицаний является лучшим показателем качества модели, чем точность. Поэтому, в зависимости от задачи, вместо точности следует использовать и другие метрики, вроде полноты, специфичности и оценки F1. Помните об этом и будьте рассудительны при выборе правильной метрики или их набора.

7. Итак…каковы ваши сильные и слабые стороны?

Что ж, на самом деле в моих слабостях кроется моя сила

Клише из мира корпоративного рекрутинга, а именно вопрос о сильных и слабых сторонах, может оказаться очень кстати при оценке качества решения в области ML. Когда кто-либо предлагает какое-либо решение для машинного обучения, вам определённо стоит спросить его об ограничениях этого решения. Их важно знать, что бы ответить на два ключевых вопроса:

Перевешивают ли преимущества эти ограничения в достаточной для реализации предложенного решения степени?
Могут ли эти ограничения помешать качественной работе модели в будущем?

“Ключ к успеху лежит в понимании своих слабостей и умении их компенсировать. Те, кто лишён такой способности, хронически терпят неудачи”, — Рэй Далио.

С позиции реализации эффективного и устойчивого решения ML, знание его ограничений является критическим для успеха. Более того, обратившись с подобным вопросом к предлагающему вам решение человеку, вы заодно поймёте степень его откровенности. Станет понятно, насколько хорошо было продумано это решение, и насколько люди, его реализовавшие, заслуживают доверия.

Заключение

Независимо от того, как глубоко вы чувствуете недостаток знаний и замешательство, у вас есть одно секретное оружие — сигнальный огонь, который поможет преодолеть туман незнания. Этим секретным оружием является ваша способность задавать вопросы. Спрашивайте, проясняйте и критически оценивайте всё, в чём не уверены. Эти 7 рассмотренных рекомендаций дадут вам целостную стратегию и 7 критических направлений, по которым можно задавать вопросы. Они помогут вам расширить понимание и грамотно оценить предложенное решение.

7 способов раскрыть жульничество аналитика данных

1. “Мы использовали ИИ, чтобы…”

2. Выживает тот, кто приспосабливается

3. Мусор к мусору

4. Больше, ещё больше!

5. Интерпретируемость

6. Выбирайте метрику обдуманно

7. Итак…каковы ваши сильные и слабые стороны?

Заключение

Читайте также

Как развернуть веб-приложение Streamlit в сети: три простых способа

Переиспользование форм в Angular

Rust и разработка кроссплатформенных решений для мобильных устройств

Тесты

Являетесь ли вы компьютерным гиком?

Хорошо ли вы знаете JavaScript?

Что вы знаете о типах данных Java?