Разное

Почему не стоит разрабатывать инструменты ИИ на основе чатов

01.11.2024

Инструменты искусственного интеллекта меняют нашу жизнь. Новые сервисы на основе ИИ появляются практически каждый день. Хотя многие из нас в первую очередь являются пользователями этих “умных” сервисов, некоторым придется заниматься их разработкой. Этим специалистам предстоит решать, как использовать и внедрять инструменты ИИ. И у них будет шанс определить, как новая технология изменит нашу жизнь.

Сдвиг во взаимодействии

Как отмечает Nielsen Group, ИИ открывает новую эру в дизайне пользовательских интерфейсов. Он переводит нас от традиционного взаимодействия на основе команд к взаимодействию на основе намерений. Это означает, что пользователям больше не нужно отдавать конкретные команды для решения задач. Достаточно выразить желаемый результат, позволяя ИИ выполнить все необходимые действия.

Как и в первые дни появления интернета и мобильных телефонов, мы вступаем на неизведанную территорию. Я занимаюсь разработкой цифрового опыта почти 20 лет и на основе этого могу утверждать: каждый такой этап в развитии нашей индустрии требовал переоценки статуса-кво. Мы должны снова внедрять инновации. Необходимо переосмыслить наши ментальные модели, шаблоны и рекомендации, чтобы инструменты ИИ были такими же интуитивно понятными, как сайты и мобильные приложения.

Проблемы моделей, основанных на чатах

Многие ведущие инструменты ИИ, такие как ChatGPT, MS Copilot и Midjourney, используют интерфейс на основе чата. Подобные интерфейсы отражают беседу один на один. Два человека сидят друг напротив друга, один спрашивает, а другой отвечает. Такой подход годится для решения простых вопросов, например для поиска подробной информации о каком-либо понятии. Однако для выполнения более сложных задач он не эффективен. Даже беседуя с кем-то в реальной жизни, нам трудно описать в нескольких словах то, что хочется. Часто требуется более длительная беседа, чтобы прийти к пониманию.

С подобными сложностями можно столкнуться при использовании Midjourney. Тому, кто не освоил промпт-инжиниринг, потребуется преодолеть долгий путь проб и ошибок, чтобы заставить нейросеть создать изображение, которое покажет определенный объект в нужном кадре и в заданном стиле. Пожалуй, раза в два труднее будет создать видео с помощью Sora. То же самое можно сказать и о выполнении более сложных задач с помощью ChatGPT — будь то создание туристического маршрута, кода сайта или промпта для других инструментов на основе ИИ. Трудно быть достаточно конкретным в одном запросе, особенно если нужно получить основательные результаты. Мы знаем это со времен изобретения командной строки. А в последние годы вновь столкнулись с подобными проблемами в работе Alexa, Google Assistant и Siri.

Модель сотрудничества

Как и в реальной жизни, можно изменить ситуацию взаимодействия. Вместо того чтобы вести беседу один на один, нам нужно сесть рядом друг с другом. Перед нами лист бумаги, доска или экран — все то, над чем можно работать вместе. Мы рассматриваем несколько вариантов одновременно. Как только находим удачное направление, уточняем детали, и каждый вносит свои коррективы.

Чтобы открыть магию генеративного ИИ (GenAI) для широких масс, нужно изменить ментальную модель его инструментов. Мы должны создать пользовательский интерфейс, который будет отражать такой реальный подход к совместной работе. Чтобы добиться этого, следует обеспечить пользователю четыре ключевых возможности.

1. Возможность иметь общий холст на перманентной основе

Как уже говорилось выше, одним из самых значительных изменений станет общий перманентный холст. Он будет представлять собой область, которую можно обновлять и которая не нуждается в повторном отображении при введении каждого следующего промпта. Пользователь должен понимать, что было изменено, чтобы оценить, соответствует ли обновление задуманному. Microsoft уже предлагает Copilot по схожей модели. Компаньон на основе ИИ сидит рядом с вами, а холст (документ Word или Excel) находится впереди в центре.

2. Возможность сравнить несколько вариантов

Этот пункт может быть индивидуальным. Для меня творческий процесс всегда начинается с рассмотрения широкого спектра идей. Мне нравится исследовать различные направления — не только при проектировании экранов, но и при создании текстовых набросков или диаграмм. Мне необходимо сравнить разные направления, чтобы оценить их плюсы и минусы. Возможность сделать это прямо в инструменте была бы очень полезной. Midjourney уже предоставляет несколько вариантов для каждого запроса. Однако в настоящее время они носят временный характер и каждый из них оказываются более или менее забыт с появлением следующего промпта.

3. Возможность добавлять или редактировать вручную

Часто бывает проще внести изменения самостоятельно, чем просить инструмент на основе ИИ выполнить обновление. Возможность напрямую управлять результатами позволяет пользователям работать быстрее и точнее. Grammarly — отличный пример. Хотя этот интеллектуальный помощник способен генерировать текст с нуля, я в основном использую его для улучшения уже написанного текста. После обновления можно продолжать редактирование, что часто приводит к многочисленным этапам переписки.

4. Возможность уточнять детали

Взаимодействие с генеративным ИИ чревато подвохами, особенно если вы хотите узнать что-то конкретное. Всегда найдутся мелкие детали, которые будут отличаться от того, что вы подразумевали. Повторный рендеринг может как исправить проблему, так и создать новые. Отказавшись решить их с помощью других приложений и продолжая использовать инструмент на основе ИИ, вы обрекаете себя на довольно хлопотный рабочий процесс. Уточнение деталей, особенно в сочетании с возможностью добавлять и редактировать, сделало бы многие инструменты ИИ гораздо более рациональными и эффективными. Фоторедактор на основе ИИ в Photoshop позволяет генерировать новое изображение для выбранной области. Он помогает обратиться к конкретным частям композиции и таким образом слой за слоем создать задуманное изображение.

Заключение

Инструменты на базе ИИ уже способны кардинально изменить наше взаимодействие с технологическим окружением. Как и в случае с другими новейшими технологиями, дизайнеры уже готовы к разработке этих инструментов. У них есть все, что нужно для решения проблем с инструментарием ИИ и повышения его надежности. Предлагаю изменить ментальную модель, перейдя от разговоров один на один к совместной работе. Это устранит многие препятствия и позволит пользователям добиться большей точности и эффективности. Надеюсь, мы сможем изменить ситуацию и создать инструменты, которые откроют для нас возможность работать с ИИ бок о бок.

Почему не стоит разрабатывать инструменты ИИ на основе чатов

Сдвиг во взаимодействии

Проблемы моделей, основанных на чатах

Модель сотрудничества

1. Возможность иметь общий холст на перманентной основе

2. Возможность сравнить несколько вариантов

3. Возможность добавлять или редактировать вручную

4. Возможность уточнять детали

Заключение

Читайте также

React.js за 5 минут

Объяснение понятий вероятности: оценка максимального правдоподобия

Магия Pry для отладки кода Ruby

Тесты

Хорошо ли вы знаете JavaScript?

Насколько хорошо вы разбираетесь в Android?

Являетесь ли вы компьютерным гиком?