Llama 3 повышает эффективность: появляется интеллектуальный агент Agent Q, новый проект OpenAI сталкивается с вызовом

Развивающаяся компания MultiOn представила передовой искусственный интеллект-ассистент Q.

  • проект.

Agent Q описывается как самоконтролируемая агентская система, способная к рассуждениям и поиску. Она может участвовать в самостоятельной игре и обучении с подкреплением через реальные задачи в интернете, позволяя самокорректироваться и автономно совершенствоваться.

Генеральный директор MultiOn Див Гарг часто использует эмодзи клубники, упоминая Agent Q в Twitter, что порождает спекуляции о связях с проектом Q* от OpenAI.

У Agent Q есть собственный аккаунт в Twitter, который публикует необычный и похожий на человеческий контент. Фоновое изображение и информация профиля содержат множество отсылок к клубнике, даже используя фотографию клубники из сада Сэма Альтмана.

Интересно, что за аккаунтом следят несколько технологических лидеров и влиятельных лиц, включая генерального директора Y-Combinator Гарри Тана, генерального директора Quora Адама Д'Анджело, обозревателя New York Times Кевина Руза, профессора ИИ Уортонской школы Итана Молика и нескольких сотрудников OpenAI. Сэм Альтман также недавно взаимодействовал с аккаунтом.

По словам Дива Гарга, Agent Q обладает возможностями планирования, рассуждения и самовосстановления. Они утверждают, что улучшили производительность Llama 3 в режиме zero-shot на 340% всего за один день обучения, достигнув 95,4% успеха в реальных задачах бронирования.

Официальное демонстрационное видео показывает, как Agent Q выполняет такие задачи, как бронирование ресторанов, встреч и авиабилетов, включая многоэтапное планирование, рассуждение, принятие решений и взаимодействие с различными приложениями.

Хотя MultiOn опубликовала исследовательскую статью, Agent Q пока недоступен для публичного тестирования. Пользователи могут присоединиться к списку ожидания, чтобы подать заявку на бета-доступ.

Agent Q сочетает управляемый поиск по методу Монте-Карло (MCTS), самоанализ ИИ, итеративную тонкую настройку и прямую оптимизацию предпочтений (DPO) для улучшения обобщения в многоэтапных задачах рассуждения. Ключевые компоненты включают:

  1. Управляемый поиск на основе MCTS для автономной генерации разнообразных данных
  2. Самокритика ИИ для обратной связи на уровне шагов
  3. DPO для офф-полиси обучения на агрегированных наборах данных

Оценочные эксперименты показывают значительные улучшения по сравнению с базовыми методами как на симулированных, так и на реальных задачах. В задаче бронирования Open Table Agent Q улучшил показатель успеха LLaMa-3 в режиме zero-shot с 18,6% до 95,4%.