- проект.
Agent Q описывается как самоконтролируемая агентская система, способная к рассуждениям и поиску. Она может участвовать в самостоятельной игре и обучении с подкреплением через реальные задачи в интернете, позволяя самокорректироваться и автономно совершенствоваться.
Генеральный директор MultiOn Див Гарг часто использует эмодзи клубники, упоминая Agent Q в Twitter, что порождает спекуляции о связях с проектом Q* от OpenAI.
У Agent Q есть собственный аккаунт в Twitter, который публикует необычный и похожий на человеческий контент. Фоновое изображение и информация профиля содержат множество отсылок к клубнике, даже используя фотографию клубники из сада Сэма Альтмана.
Интересно, что за аккаунтом следят несколько технологических лидеров и влиятельных лиц, включая генерального директора Y-Combinator Гарри Тана, генерального директора Quora Адама Д'Анджело, обозревателя New York Times Кевина Руза, профессора ИИ Уортонской школы Итана Молика и нескольких сотрудников OpenAI. Сэм Альтман также недавно взаимодействовал с аккаунтом.
По словам Дива Гарга, Agent Q обладает возможностями планирования, рассуждения и самовосстановления. Они утверждают, что улучшили производительность Llama 3 в режиме zero-shot на 340% всего за один день обучения, достигнув 95,4% успеха в реальных задачах бронирования.
Официальное демонстрационное видео показывает, как Agent Q выполняет такие задачи, как бронирование ресторанов, встреч и авиабилетов, включая многоэтапное планирование, рассуждение, принятие решений и взаимодействие с различными приложениями.
Хотя MultiOn опубликовала исследовательскую статью, Agent Q пока недоступен для публичного тестирования. Пользователи могут присоединиться к списку ожидания, чтобы подать заявку на бета-доступ.
Agent Q сочетает управляемый поиск по методу Монте-Карло (MCTS), самоанализ ИИ, итеративную тонкую настройку и прямую оптимизацию предпочтений (DPO) для улучшения обобщения в многоэтапных задачах рассуждения. Ключевые компоненты включают:
- Управляемый поиск на основе MCTS для автономной генерации разнообразных данных
- Самокритика ИИ для обратной связи на уровне шагов
- DPO для офф-полиси обучения на агрегированных наборах данных
Оценочные эксперименты показывают значительные улучшения по сравнению с базовыми методами как на симулированных, так и на реальных задачах. В задаче бронирования Open Table Agent Q улучшил показатель успеха LLaMa-3 в режиме zero-shot с 18,6% до 95,4%.