RecursiveMAS: Как ИИ-агенты учатся «телепатии» для повышения эффективности
Калькулятор калорий Рассчитай свое питание
Навигация по сайту

RecursiveMAS: Как ИИ-агенты учатся «телепатии» для повышения эффективности

Одной из ключевых проблем современных многоагентных систем искусственного интеллекта является их метод коммуникации: агенты генерируют и обмениваются текстовыми последовательностями. Это приводит к задержкам, значительно увеличивает стоимость обработки токенов (единиц текста) и затрудняет обучение всей системы как единого целого.

Для преодоления этих трудностей исследователи из Иллинойсского университета в Урбана-Шампейн и Стэнфордского университета разработали фреймворк RecursiveMAS. Он позволяет агентам сотрудничать и передавать информацию через пространство векторных представлений (embedding space), а не с помощью текста. Такое изменение значительно повышает как эффективность, так и производительность системы.

Эксперименты показали, что RecursiveMAS обеспечивает улучшение точности в сложных областях, таких как генерация кода, медицинские рассуждения и поиск информации. Одновременно с этим фреймворк увеличивает скорость вывода (inference speed) и существенно сокращает использование токенов. При этом RecursiveMAS значительно дешевле в обучении по сравнению со стандартными методами полной донастройки (full fine-tuning) или LoRA, что делает его масштабируемым и экономически выгодным решением для создания настраиваемых многоагентных систем.

Проблемы улучшения многоагентных систем

Многоагентные системы способны решать сложные задачи, которые трудно поддаются системам с одним агентом. Однако при масштабировании таких систем для реальных приложений серьезной проблемой становится их способность развиваться, улучшаться и адаптироваться к различным сценариям с течением времени.

Адаптация на основе промптов (подсказок) улучшает взаимодействие агентов путем итеративного уточнения общего контекста, предоставляемого им. Обновляя промпты, система действует как «режиссер», направляя агентов на генерацию ответов, которые лучше соответствуют общей цели. Фундаментальное ограничение такого подхода заключается в том, что возможности базовых моделей, лежащих в основе каждого агента, остаются статичными.

Более сложный подход — это обучение агентов путем обновления весов базовых моделей. Однако обучение всей системы агентов является непростой задачей, поскольку обновление всех параметров множества моделей требует значительных вычислительных ресурсов.

Даже если команда инженеров берется за обучение своих моделей, стандартный метод взаимодействия агентов через текстовые сообщения создает серьезные узкие места. Поскольку агенты полагаются на последовательную генерацию текста, это вызывает задержки: каждая модель должна дождаться завершения генерации текста предыдущей моделью, прежде чем начать собственную обработку.

Принуждение моделей к пошаговому изложению своих промежуточных рассуждений (токен за токеном) только для того, чтобы следующая модель могла их прочитать, крайне неэффективно. Это резко увеличивает использование токенов, повышает вычислительные затраты и делает итеративное обучение во всей системе мучительно медленным для масштабирования.

Как работает RecursiveMAS

Вместо того чтобы пытаться улучшить каждого агента как изолированный, автономный компонент, RecursiveMAS разработан для совместного развития и масштабирования всей многоагентной системы как единого интегрированного целого.

Фреймворк вдохновлен рекурсивными языковыми моделями (RLM). В стандартной языковой модели данные линейно проходят через стек различных слоев. Напротив, рекурсивная языковая модель повторно использует набор общих слоев, которые обрабатывают данные и возвращают их обратно себе. Зацикливая вычисления, модель может углублять свои рассуждения, не добавляя новых параметров.

RecursiveMAS расширяет этот принцип масштабирования от одной модели до многоагентной архитектуры, которая действует как единая рекурсивная система. В такой конфигурации каждый агент функционирует как слой в рекурсивной языковой модели. Вместо генерации текста агенты итеративно передают свои непрерывные скрытые представления (латентные репрезентации — промежуточные данные, не предназначенные для прямого чтения человеком) следующему агенту в последовательности, создавая зацикленный скрытый поток информации, проходящий через систему.

Эта латентная передача продолжается по цепочке через всех агентов. Когда последний агент завершает обработку, его скрытые выходные данные подаются непосредственно обратно самому первому агенту, начиная новый рекурсивный раунд. Такая структура позволяет всей многоагентной системе взаимодействовать, обдумывать и уточнять свои коллективные рассуждения на протяжении нескольких раундов полностью в латентном пространстве, при этом только самый последний агент производит текстовый вывод в заключительном раунде. Это подобно тому, как агенты общаются «телепатически» как единое целое, а последний агент предоставляет окончательный ответ в виде текста.

Архитектура латентного сотрудничества

Для обеспечения непрерывного сотрудничества в латентном пространстве авторы представили специализированный архитектурный компонент под названием RecursiveLink. Это легкий двухслойный модуль, предназначенный для передачи и уточнения скрытых состояний модели, а не для принуждения ее к декодированию текста.

Скрытые состояния последнего слоя языковой модели содержат богатое семантическое представление ее процесса рассуждений. RecursiveLink разработан для сохранения и передачи этой высокоразмерной информации из одного пространства векторных представлений в другое.

Чтобы избежать затрат на обновление каждого параметра во множестве больших языковых моделей, фреймворк сохраняет параметры моделей замороженными. Вместо этого он оптимизирует систему, обучая только параметры модулей RecursiveLink.

Для обработки как внутренних рассуждений, так и внешней коммуникации система использует две вариации модуля. Внутренний RecursiveLink (inner RecursiveLink) работает внутри агента во время его фазы рассуждений. Он принимает вновь сгенерированные векторные представления модели и отображает их непосредственно обратно в свое собственное входное пространство векторных представлений. Это позволяет агенту непрерывно генерировать поток скрытых мыслей без создания дискретных текстовых токенов.

Внешний RecursiveLink (outer RecursiveLink) служит мостом между агентами. Поскольку агенты в реальной системе могут использовать различные архитектуры и размеры моделей, их внутренние пространства векторных представлений имеют совершенно разные измерения. Внешний RecursiveLink включает дополнительный слой, предназначенный для сопоставления векторных представлений из скрытого измерения одного агента с пространством векторных представлений следующего агента.

Во время обучения сначала независимо тренируются внутренние связи, чтобы «разогреть» способность каждого агента мыслить в непрерывных латентных векторных представлениях. Затем система переходит к обучению внешнего цикла, где разнообразные, замороженные модели связываются в петлю, и система оценивается на основе окончательного текстового вывода последнего агента.

Единственное, что обновляется в процессе обучения, — это параметры RecursiveLink, а исходные веса модели остаются неизменными, подобно низкоранговой адаптации (LoRA). Еще одно преимущество этой системы проявляется, когда у вас есть несколько агентов на базе одной и той же основной модели.

Если у вас есть многоагентная система, где два агента построены на одной и той же базовой модели, но действуют в разных ролях, вам не нужно загружать две копии модели в память графического процессора, и вы не обучаете их отдельно. Агенты будут использовать общую базовую модель как «мозг» и RecursiveLink как «соединительную ткань».

RecursiveMAS в действии

Исследователи оценили RecursiveMAS по девяти тестовым наборам, охватывающим математику, естественные науки и медицину, генерацию кода и поиск ответов на вопросы. Они создали многоагентную систему, используя модели с открытыми весами, включая Qwen, Llama-3, Gemma3 и Mistral. Этим моделям были назначены роли для формирования различных моделей сотрудничества агентов, таких как последовательные рассуждения и сотрудничество экспертов (mixture-of-experts).

RecursiveMAS сравнивали с базовыми решениями при одинаковых бюджетах на обучение, включая автономные модели, улучшенные с помощью LoRA или полной донастройки с учителем, альтернативные многоагентные фреймворки, такие как Mixture-of-Agents и TextGrad, а также рекурсивные базовые решения, такие как LoopLM. Также проводилось сравнение с Recursive-TextMAS, которая использует ту же структуру рекурсивной петли, что и RecursiveMAS, но при этом заставляет агентов явно общаться посредством текста.

RecursiveMAS продемонстрировал среднее повышение точности на 8,3% по сравнению с самыми сильными базовыми решениями по всем бенчмаркам. Он особенно отличился в задачах, требующих интенсивных рассуждений, превзойдя текстовые методы оптимизации, такие как TextGrad, на 18,1% в тесте AIME2025 и на 13% в AIME2026.

Благодаря тому, что RecursiveMAS избегает генерации текста на каждом шаге, он достиг ускорения сквозного вывода в 1,2 до 2,4 раза. RecursiveMAS также намного эффективнее в использовании токенов по сравнению с альтернативами. В сравнении с текстовым Recursive-TextMAS, он сокращает использование токенов на 34,6% в первом раунде рекурсии, а к третьему раунду достигает сокращения использования токенов на 75,6%. RecursiveMAS также оказался удивительно дешевым в обучении. Поскольку он обновляет только легковесные модули RecursiveLink, которые состоят примерно из 13 миллионов параметров или около 0,31% от обучаемых параметров замороженных моделей, он требует наименьшего пикового объема памяти графического процессора и сокращает затраты на обучение более чем вдвое по сравнению с полной донастройкой.

Применение в корпоративном секторе

Достигнутые преимущества в эффективности — меньшее потребление токенов, снижение требований к памяти графического процессора и более высокая скорость вывода — призваны сделать сложные многоэтапные рабочие процессы агентов жизнеспособными в производственных средах без вычислительных накладных расходов, которые ограничивают внедрение агентных систем в корпорациях. Исследователи опубликовали код и обученные веса моделей под лицензией Apache 2.0.

Поделитесь с друзьями

Комментарии закрыты

Наверх