Gli AI agent smetteranno di parlarsi in testo? La svolta dei sistemi multi-agente nello spazio latente
AI Research

Gli AI agent smetteranno di parlarsi in testo? La svolta dei sistemi multi-agente nello spazio latente

26 maggio 2026·Davide Stigliani

Nel mondo degli AI agent stiamo iniziando a vedere un cambio di paradigma che potrebbe avere conseguenze molto più grandi di quanto sembri a prima vista. Fino a oggi, quando più agenti collaborano, il flusso è quasi sempre lo stesso: un modello ragiona, traduce il proprio stato interno in testo, passa quel testo a un altro agente, e il secondo deve ricostruire da quelle parole una nuova rappresentazione interna del problema.

È un meccanismo intuitivo, ma profondamente inefficiente. Ogni passaggio da spazio latente a testo e poi di nuovo da testo a spazio latente introduce costo, latenza e perdita di informazione semantica, soprattutto quando il task richiede più round di collaborazione tra modelli diversi.

È proprio da questa intuizione che nasce Recursive Multi-Agent Systems, un lavoro pubblicato su arXiv il 27 aprile 2026 da ricercatori affiliati a UIUC, Stanford, NVIDIA e MIT. Il paper propone di trattare l'intero sistema multi-agente come una computazione ricorsiva unificata nello spazio latente, invece che come una sequenza di messaggi testuali tra agenti separati.

Il cuore della proposta è un modulo leggero chiamato RecursiveLink, pensato per collegare agenti eterogenei e permettere il trasferimento diretto degli stati latenti tra un modello e l'altro. In pratica, l'idea è semplice ma radicale: se i modelli 'pensano' internamente in rappresentazioni continue, allora costringerli a verbalizzare tutto a ogni passaggio potrebbe essere uno spreco strutturale.

Questa è la parte che rende il lavoro così interessante anche fuori dal perimetro accademico. Non stiamo parlando solo di un miglioramento marginale a un framework esistente, ma di un tentativo di ripensare la collaborazione tra agenti come processo nativamente interno al modello, riducendo al minimo la dipendenza dai token come mezzo di comunicazione intermedio.

Ed è qui che arrivano i numeri che hanno attirato così tanta attenzione. Secondo l'abstract del paper, RecursiveMAS ottiene in media un miglioramento di accuratezza dell'8,3% rispetto a baseline avanzate single-agent, multi-agent e recursive, insieme a un'accelerazione end-to-end compresa tra 1,2x e 2,4x e a una riduzione dell'uso di token tra il 34,6% e il 75,6%. Nei materiali divulgativi e nelle analisi successive, questi risultati vengono collegati a benchmark complessi in matematica, scienza, medicina e code generation, cioè contesti dove la collaborazione tra agenti tende a essere utile ma anche molto costosa.

La cosa forse più rilevante, però, è che il framework non viene presentato come un sistema che richiede di rifare da zero l'addestramento dei modelli di partenza. Il repository ufficiale descrive RecursiveMAS come un'architettura che collega agenti eterogenei tramite moduli leggeri, così da permettere scambio, raffinamento ed evoluzione degli stati latenti attraverso round ricorsivi. Questo rende il concetto molto più interessante per chi costruisce pipeline reali: non una nuova teoria astratta, ma un possibile layer di orchestrazione più efficiente per sistemi multi-agente in produzione.

In fondo, il punto è tutto qui. Per mesi il mercato degli agenti ha ragionato quasi solo in termini di prompt, tool use, orchestrazione e protocolli di comunicazione; questo paper suggerisce invece che una parte enorme del guadagno potrebbe arrivare semplicemente cambiando il mezzo con cui gli agenti si passano informazione. Se il testo è il collo di bottiglia, allora la prossima evoluzione non sarà solo creare agenti migliori, ma permettere agli agenti di collaborare in modo più vicino a come i modelli elaborano davvero il pensiero internamente.

Per chi lavora su prodotti AI, il messaggio è molto pratico. Nei sistemi multi-agente complessi, il costo non nasce solo dall'inferenza del singolo modello, ma dalla quantità di token spese per far parlare tra loro agenti che, in realtà, avrebbero già abbastanza struttura interna per collaborare senza verbalizzare ogni passaggio. Se questo approccio reggerà anche fuori dai benchmark, potrebbe cambiare il modo in cui si progettano pipeline agentiche per reasoning, coding, ricerca tecnica e automazione avanzata.

Naturalmente è presto per trattare RecursiveMAS come nuovo standard del settore. Il lavoro è ancora nella fase paper-plus-code, e come sempre tra risultati di ricerca e robustezza industriale c'è di mezzo il test più importante: quello del mondo reale. Però il segnale è forte: la frontiera degli agenti non passa soltanto da modelli più grandi o tool più numerosi, ma da una domanda molto più profonda — e molto più potente — cioè come far collaborare i modelli senza costringerli ogni volta a tradurre tutto in parole.