С тех пор, как выражение “генеративный ИИ” вошло в наш повседневный лексикон, большие языковые модели (large language models, LLM) приобрели широкую известность благодаря своим удивительным возможностям. Помимо генерации текстов и изображений, они обещают совершить революцию в экономике, помогая предприятиям справляться с любым количеством ключевых бизнес-функций и пользовательских сценариев.

Сегодня, как никогда ранее, идея о том, чтобы поговорить с ИИ через чат или попросить его выполнить определенные задачи так же, как это сделал бы человек, стала реальностью. Более того, предпринимаются огромные усилия по расширению сферы применения этой технологии в нашем повседневном опыте как отдельных личностей, так и потребительской аудитории.

А что же происходит в сфере голосовых технологий?

Уделяя много внимания LLM как катализатору расширения возможностей чата, мало кто задумывается об одной из самых важных областей, где обслуживание клиентов может принести значительный выигрыш,  —  о современном контакт-центре. В настоящее время здесь доминируют трудоемкие задачи, связанные с обработкой голосовых сообщений.

IVR (Interactive Voice Response  —  интерактивный автоответчик) по-прежнему остается одной из форм обслуживания клиентов, а агенты-люди, которых становится все меньше, все больше перегружаются работой. А значит, пришло время погрузиться в мир больших речевых моделей (large speech models, LSM). Да, у LLM появился более разговорчивый родственник, наделенный теми же преимуществами и возможностями, что и генеративный ИИ, но только с телефонным (голосовым) интерфейсом.

Приготовьтесь к появлению новой большой речевой модели Watson

В течение последних нескольких месяцев специалисты IBM Watsonx (платформы генеративного ИИ) и IBM Research (подразделения исследований и разработок IBM) усердно работали над созданием новой, самой современной большой речевой модели (LSM). Основанные на технологии трансформеров, LSM используют огромные объемы обучающих данных и параметры модели, обеспечивающие точность распознавания речи, близкую к человеческой. Созданные специально для таких сфер применения, как голосовые агенты и текстовая расшифровка аудиозаписей звонков в режиме реального времени, LSM обеспечивают высокоточную транскрипцию (перевод аудио в текст) уже в готовом виде, обеспечивая бесперебойную работу с клиентами.

В конце ноября IBM развернула новые LSM для английского, японского и французского языков. Пока эти модели находятся в закрытом бета-тестировании и доступны исключительно пользователям Watson Speech to Text и Watsonx Assistant.

Но это еще не все. LSM продемонстрировали адекватную производительность в случаях использования длинных текстов (как при аналитике, так и при обобщении звонков), поскольку были обучены на данных с длинными фразами.

Как начать работу с этими моделями?

Подайте заявку на участие в программе спонсорства пользователей закрытого бета-тестирования через эту форму Asana. Специалисты по управлению продуктами свяжутся с вами, чтобы уточнить срок реализации заявки. Поскольку Watson LSM находятся в стадии закрытого бета-тестирования, доступны еще не все функции и возможности.

Читайте также:

Читайте нас в Telegram, VK и Дзен


Перевод статьи Marco Noel: IBM’s New Watson Large Speech Model Gives Generative AI a Voice

Предыдущая статьяРазмеченные объединения в TypeScript
Следующая статьяЛокализация: почему простого перевода пользовательского интерфейса будет недостаточно