Создание Copilot для визуального распознавания в Azure

Итак, я создал собственного чат-бота Copilot для визуального распознавания в Azure (в Custom Vision  —  в пользовательском сервисе).

Изображение, сгенерированное Microsoft Copilot

Как следует из приведенного выше изображения, сгенерированного ИИ, работник-человек (Pilot) сотрудничает с цифровым работником (Copilot) в дополненном ИИ стиле  —  для принятия обоснованных решений и их исполнения. В этом заключается философия экосистемы Copilot.

Выбор инструмента

Есть два инструмента, предлагающих графические среды разработки для создания Copilot на основе пользовательских данных с помощью генеративного ИИ. Вы можете выбрать любой из них или испробовать оба. Я называю такую возможность “двухвариантным путешествием”.

Рис. 1

Вариант 1-й

Azure AI Studio может стать естественным выбором для тех, кто уже знаком с Azure OpenAI Service (сервисом OpenAI, предоставляющим доступ к LLM) или OpenAI Playground (испытательной площадкой OpenAI). Azure AI Studio позволит получить контроль высокого порядка над большой языковой моделью, используемой в Copilot, включая возможность оценивать и сравнивать различные версии модели, а также разрабатывать промпты для модели.

Вариант 2-й

Microsoft Copilot Studio может оказаться более удобным для тех, кто знаком с пакетом Power Virtual Agent и нуждается в более гибком функционале. Microsoft Copilot Studio обеспечивает предварительное определение завершенных диалогов для часто задаваемых вопросов и резервирование сгенерированных ответов.

Создание Copilot в Azure AI Studio

Я решил создать собственного чат-бота Copilot для визуального распознавания в Azure AI Studio с помощью Azure AI Vision.

Функция поиска и обобщения видео в Azure AI Vision использует комбинацию обработки естественного языка (NLP) и методов компьютерного зрения для анализа видеоконтента. Она позволяет быстро и лаконично обобщить основные моменты видео, а также находить конкретные видеокадры, что упрощает поиск соответствующего контента.

Вот полная схема рабочего процесса, которому я следовал при создании Copilot:

Рис. 2

По завершении этого рабочего процесса я получил чат-бота Copilot, предназначенного для визуального распознавания и готового к использованию.

Как показано ниже, во время развертывания Azure AI Studio было создано несколько ключевых рабочих пространств:

Рис. 3

Кроме того, в Azure AI Studio любые развертывания LLM декларативно интегрированы с оценкой, потоком промптов и т. д.

Пример использования Copilot

Рис. 4

Развернута Azure AI Studio. Создан проект ByoCopilot. Выбрано “Build your own copilot” (“Разработка собственного copilot”), как показано на рис. 4.

Рис. 5V

В проекте ByoCopilot при открытии Playground и Deployments в настоящее время нет развертывания каких-либо LLM-сервисов. Вот как выглядит раздел Build (рис. 5). В данном случае я мог бы использовать GPT-4 Turbo Vision LLM.

В проекте ByoCopilot в разделе Explore выбраны возможности Azure AI Vision.

Рис. 6

Ниже перечислены функциональные возможности Azure AI Vision. Меня особенно интересовала функция “Video retrieval” (“Поиск по видео”) для использования Copilot.

Рис. 7

Функция поиска по видео в Azure AI Vision использует сочетание обработки естественного языка (NLP) и методов компьютерного зрения для анализа видеоконтента. Она позволяет быстро и кратко изложить основные моменты видео, а также находить конкретные видеофрагменты, облегчая поиск релевантного контента.

Когда я открыл раздел “Video retrieval”, он был пуст  —  никаких видеоданных не было загружено и проиндексировано, как показано здесь.

Рис. 8

По этому случаю я снял видео в продуктовом магазине, находящемся вблизи моего дома. IMG_2778.MOV  —  мои видеоданные. После загрузки и индексации эти данные появились в библиотеке, как показано на рис. 9.

Рис. 9

И вот, когда Copilot для распознавания видео был готов, я решил пообщаться с ним.

Я спросил Copilot о следующем:

  • Сколько стоит пачка чипсов Tayto? Он точно показал кадр с чипсами Tayto и их цену  —  $2,95.
  • Покажи рисовое печенье. Он показал кадр, на котором было рисовое печенье с ценником.
Рис. 10
  • Покажи полки с продуктами Great Value. Он показал кадр с секцией для продукции Great Value, а также все кадры (с разными временными метками), где появлялись секции бренда Great Value.
Рис. 11
  • Покажи Koka Chicken. Он точно показал кадр с лапшой со вкусом курицы Koka Chicken, а также все кадры с отметками времени, когда появлялись пакетики с этой лапшой.
Рис. 12

Выводы

  • Вы также можете создать собственного чат-бота Copilot для приложения на основе искусственного интеллекта.
  • Для таких случаев можно использовать GPT-4 Turbo Vision.
  • Можно создавать различные пользовательские чат-боты Copilot на основе собственных данных, выбирая соответствующие LLM и функции Azure AI.
  • Чат-боты Copilot, созданные на базе Azure AI Vision, могут предназначаться для этических наблюдений, отчетов о событиях и мониторинга.

Читайте также:

Читайте нас в Telegram, VK и Дзен


Перевод статьи Vishal Anand: Copilot for Vision on Azure

Предыдущая статьяТренды UX/UI дизайна на 2024 год
Следующая статьяРеализация React Query в веб-приложении