Команда специалистов-исследователей Apple разработала новую ИИ-систему, которая получила название Reference Resolution As Language Modeling (ReALM). Потенциально она способна заметно улучить возможности голосовых ассистентов. ReALM может понимать неоднозначные ссылки на объекты на экране, а также учитывать разговорный и контекстный фон.
Новая ИИ-система способна реконструировать экран в понятном для себя формате. Фактически ReALM переводит информацию на экране в текст, учитывая при этом визуальные особенности и местоположение объектов. Такой подход вместе с тонкой настройкой языковых моделей обеспечивает лучшее понимание системой различных особенностей и тонкостей.
При этом разработчики предупреждают, что на данном этапе ReALM плохо справляется со сложными визуальными объектами и задачами. Для улучшения всей системы нужно задействовать мультимодальные подходы и компьютерное зрение.
Однако сама по себе разработка свидетельствует о том, что компания Apple продолжает вкладывать большие силы и средства в развитие своего голосового ассистента. Улучшенная Siri может стать одной из ключевых особенностей iOS 18.