Разное

Искусственный интеллект + распределённые реестры = оружие против фейковых новостей

02.07.2020

Поддельные новости — довольно важная проблема в нашем онлайн мире. И хотя дезинформация и пропаганда существуют уже сотни лет, новости-фейки сегодня становятся по-настоящему серьёзной угрозой. Частично из-за простоты, с которой их можно создавать и распространять, а также потому, что потреблять контент в сети слишком легко.

Почему проблему поддельных новостей так сложно решить? Ненадёжный контент трудно идентифицировать, отследить и контролировать. Если даже доказательства о том, что опубликованная новость поддельная, появились очень быстро, то люди могут воспринимать её удаление или предупреждение не распространять материал дальше как цензуру или грубое нарушение.

Люди, сайты, блоги, СМИ — всё это в некоторой степени части данной проблемы, причём неважно, участвуют они косвенно или прямо, осознают, что делают или нет. Ложные или вводящие в заблуждение истории легко появляются и распространяются повсеместно через интернет. Это происходит мгновенно — пара кликов и готово. А дальше фейки тихо формируют мнение общества.

Уже очень трудно сказать, насколько правдиво то, что вы видите из-за технологии ‘deepfakes’ (на основе глубокого обучения, с помощью которой можно подделывать видео). Последние технологии позволяют взламывать настоящие видео или создавать искусственные, которые не отличить от реальных. В них люди говорят о том, о чем на самом деле никогда не говорили. Более того, синтезированную речь, которая совпадает с голосом известной личности могут использовать для заявлений, которых никогда не было в реальной жизни… Вспомнили о “Чёрном зеркале”? Но не будем нагнетать.

Прошли те времена, когда подтверждением правдивости были новости по телевизору, фотографии или видео. Новостные корпорации и организации СМИ предпринимают попытки хоть как-то решить эту проблему. И некоторые из них могут оказаться довольно эффективными.

Применение таких технологий как блокчейн, IPFS и обработка естественного языка на единой платформе может позволить заработать глобальной сети “оценщиков”. Они будут постоянно давать обратную связь и маркировать репрезентативный рандомный сэмпл из широкого набора контента.

Цель системы — разбить проблему на части и увеличить глобальную сознательность за счёт систематического снятия снепшотов онлайн контента. Их будут просматривать и маркировать люди. Дальше платформа может предложить специализированные API, которые покажут паттерны и информацию, извлечённые из текущего анализа контента. Так третьи стороны могли бы оценивать достоверность нового контента в моменты публикации и пересылки другим.

Фейк рождён быть вирусным

Поддельный контент специально создается так, чтобы его передавали, как болезнь — быстро и естественно. Фейковые истории притягивают внимание читателей и вызывают сильные эмоциональные реакции. Так что пользователи постоянно делятся таким контентом в своих социальных сетях. Фальшивая история может стать вирусной буквально за пару часов, если подать ее правильно и вовремя. “Индустрия вранья” пользуется следующими недостатками нашей виртуальной реальности:

Онлайн-мир ориентирован на “внимание и мгновенную передачу информации”. Производительность глобальной “сети передачи новостей”, включая социальные медиа, новостные корпорации, лидеров мнений и инфлюенсеров, оценивается в терминах “внимание” и “вовлечение пользователей”. Во многих случаях эти критерии измеряются в очень упрощённой форме CTR: соотношение кликов к количеству показов и какая статистика “расшаривания” у этого материала.

С таким подходом к измерению эффективности отлично срабатывает контент с забавными фотографиями и “многообещающими”, как в жёлтой прессе, заголовками. Причём качество материала (информации) внутри ссылки не имеет значения. Очень часто людям достаточно забавной промо-картинки к статье с впечатляющим заголовком — они начинают делиться ссылкой с друзьями напрямую и в социальных сетях.

Качество контента очень редко является частью ключевого показателя эффективности, по крайней мере это правило не распространяется на серьёзные источники: авторитетные сайты ставят цели (SEO, SMM, таргетинг) по CTR, просмотрам страницы, социальному обмену и определенным связанным показателям. А когда появляются жалобы на плохой контент, они улучшают его или удаляют совсем.

2. Существует тенденция, что онлайн-пользователи делятся “очень просто очень многим”. Другая сторона проблемы в том, что эта огромная группа онлайн-пользователей, которая часто ведёт себя как распространители контента, даже не знает и не хочет разбираться в том, что они рассылают…

Грустно осознавать, что в эру, подарившую человечеству быстрый доступ к всемирным знаниям, большинство пользователей интернета играют роль “пассивных передатчиков”. Они не создают ничего нового, они просто перераспределяют всё, что им кажется модным или “лайкабельным” с очень маленькой долей критического мышления или вообще без него.

Пользователи этого слоя могут потреблять и передавать фальшивые новости и другие виды плохого контента, именно так, несознательно, они становятся частью всего механизма по производству вранья.

Проблема квантования и сознания

Очевидно, что существуют организации, которые преднамеренно запускают фейковые новости. Они это делают, чтобы достичь свои определённые политические, коммерческие и другие цели. Как я сказал ранее, ещё есть крупная группа пользователей (ведут себя автономно или частично связаны с компаниями), которые непреднамеренно участвуют в экспоненциальном распространении фальшивых историй. На самом деле из-за низкого понимания и осознанности многие пользователи никогда не осознАют себя частью системы фейковых новостей.

Нам нужно понимать паттерны и делиться знаниями, получаемыми в процессе постоянного анализа репрезентативного сэмпла общемирового цифрового контента. Стоит создать глобальный реестр обогащённого (качественного) контента, проанализированного и маркированного как людьми, так и разумными агентами ИИ.

Решение: глобальный реестр маркированных фейковых новостей

Предложенная “сеть оценки фейковых новостей” базируется на другом подходе. С ним новый контент классифицируется в реальном времени меньше и чаще проводится крупномасштабный анализ “фейковых новостей из прошлого”. Это нужно для квантования проблемы, извлечения паттернов и распространения полученных знаний. Так делается акцент на измерении уровня ответственности каждой из вовлечённых сторон, чтобы повышать образованность, увеличивать глобальную осознанность и работать со стратегиями по корпоративной социальной ответственности онлайн-компаний.

Представьте процесс “сэмплирования контента”, который работает ежедневно — сэмплирование глобального контента во время публикации и шеринга. Его исполняют специальные поисковые роботы (веб-пауки), они как бы “слушают” статьи и “новости” по всему репрезентативному набору с основных веб-сайтов, СМИ и популярных блогов. Роботы находят и упорядочивают “свежий контент”, а также и “ссылки на новый контент” в такое единое, дедуплицированное и неизменное хранилище, которое создано специально для обработки историй, фактов и всего, что с ними связано.

Свежий идентифицированный контент объединяют с мастер-копией, релевантными “историями” и фактической информацией. Затем его сравнивают с уже промаркированным контентом, чтобы оценить “степень отклонения от реальности” при помощи уже проверенных фактов, других версий этой же истории и знакомых паттернов.

Искусственный интеллект играет важную роль путем идентификации истории в контенте (элементы истории — названия, события, случаи, временная шкала и т.д.). Далее он сопоставляет вариации, которые нашел в огромном океане зашумлённого (с помехами) контента из разных источников и разного уровня качества.

Как только история набирает достаточно голосов и проверок фактов, ИИ обобщает результаты всех известных вариаций истории и разных типов раскрытия темы. Он позволяет “квантовать” надежность и оригинальной истории, и ее вариаций. Компоненты ИИ выбирают паттерны и продолжают следить за каждой исходной историей на предмет новых фактов и событий, которые нужно проверить.

СМИ, новостные компании, блоги, а также другие организации, которые пользуются API этой платформы, чтобы провести самооценку соответствия контента, продвигают миссию по его улучшению для всех людей в мире.

С этой информацией медиа организации могут действовать: изучать и измерять уровень своей ответственности в сфере распространения фейков. Так они могут рассказать своим пользователям, что конкретные истории, которые они опубликовали, оказались ложными и могли ввести их в заблуждение.

Компании также могут интегрировать специальные API, чтобы проводить кросс-проверку контента в моменты шеринга и уведомлять своих пользователей, когда такой контент уже промаркирован или есть сигналы для ограничения уровня доверенности (при этом решение о шеринге остаётся за пользователем). СМИ могут уведомлять пользователей, которые уже видели истории подтверждённых фейковых новостей (“залайканные”, “расшаренные”, сохранённые, прокомментированные или просто прочтённые) и объяснять, как в будущем избегать такого контента.

Искусственный интеллект + распределённые реестры = оружие против фейковых новостей

Фейк рождён быть вирусным

Проблема квантования и сознания

Решение: глобальный реестр маркированных фейковых новостей

Читайте также

Быстрая сборка и развертывание дашборда со Streamlit

Как стать разработчиком Go: в 6 шагах от карьеры

Почему служебные классы не желательны в проектах

Тесты

Насколько хорошо вы знаете Python?

Какая из профессий в IT-сфере подойдет именно вам?

Какой ваш язык программирования?