Исследователи компании Apple разработали систему искусственного интеллекта под названием ReALM (Reference Resolution as Language Modeling), которая направлена на значительное улучшение понимания и реагирования голосовых помощников на команды.
В исследовательской статье, опубликованной через VentureBeat, Apple описывает новую систему, которая использует большие языковые модели для решения проблемы разрешения ссылок. Это включает в себя декодирование неоднозначных ссылок на объекты на экране, а также понимание контекста разговора и фоновой информации. В результате ReALM может способствовать более интуитивному и естественному взаимодействию с устройствами.
Разрешение ссылок играет важную роль в понимании естественного языка, позволяя пользователям использовать местоимения и другие косвенные ссылки в разговоре без путаницы. Для цифровых помощников это давно была серьезной проблемой, так как они должны были интерпретировать различные вербальные и визуальные сигналы. Система ReALM от Apple решает эту проблему, превращая сложный процесс разрешения ссылок в задачу языкового моделирования. Она способна понимать ссылки на визуальные элементы на экране и интегрировать это понимание в разговор.
ReALM реконструирует визуальный макет экрана, используя текстовые представления. Это включает анализ экранных объектов и их расположение для создания текстового формата, отражающего содержание и структуру экрана. Исследователи Apple обнаружили, что эта стратегия в сочетании с тонкой настройкой языковых моделей значительно превосходит традиционные методы, включая возможности OpenAI GPT-4.
ReALM позволяет пользователям более эффективно взаимодействовать с цифровыми помощниками, опираясь на информацию на экране, без необходимости получения точных инструкций. Это делает голосовых помощников более полезными в различных ситуациях, таких как вождение или помощь пользователям с ограниченными возможностями.
Apple уже представила несколько исследовательских работ в области искусственного интеллекта и ожидается, что на конференции WWDC в июне она представит ряд новых функций и технологий в этой области.