Sicurezza AI

Fable 5 torna disponibile in tutto il mondo: Anthropic risolve la crisi, lancia HackerOne e collabora con il governo USA sulla sicurezza AI

02 luglio 2026·Davide Stigliani

Meno di due settimane dopo il blocco che aveva scosso l'intero ecosistema AI globale, arriva il colpo di scena. Nella serata del 1 luglio 2026, Anthropic ha reso nuovamente disponibile Fable 5 in tutto il mondo. In parallelo, anche Mythos 5 è tornato accessibile, non globalmente, ma per le aziende statunitensi approvate direttamente dal governo Trump. La notizia ha generato reazioni immediate nella community tech: sollievo da parte degli sviluppatori e delle aziende che avevano costruito pipeline critiche su questi modelli, ma anche domande profonde su cosa sia realmente successo, perché il blocco è durato così poco, e soprattutto cosa cambia adesso nella relazione tra le grandi aziende AI e il governo americano. Per capire la portata di questo sviluppo, bisogna ricostruire con precisione la sequenza degli eventi.

Quando il blocco di Fable 5 e Mythos 5 era stato annunciato, la narrativa prevalente lo aveva interpretato principalmente come una mossa geopolitica, un tentativo del governo americano di limitare l'accesso di attori stranieri ai modelli AI più potenti. Una lettura plausibile, ma incompleta. Il comunicato ufficiale di Anthropic del 1 luglio rivela una versione più precisa e più tecnica di ciò che è accaduto: la sospensione era stata innescata dalla segnalazione di falle specifiche nel sistema da parte di un team di ricercatori di sicurezza di Amazon, uno dei principali investitori e partner cloud di Anthropic.

Queste vulnerabilità non erano teoriche. Erano exploit concreti, tecniche di jailbreak sofisticate che permettevano di aggirare i guardrail di sicurezza di Fable 5 e Mythos 5 per ottenere output che il modello non avrebbe dovuto produrre in nessuna circostanza: istruzioni dettagliate per identificare e sfruttare vulnerabilità software critiche, potenzialmente utilizzabili per attacchi informatici su infrastrutture sensibili. Il governo americano, informato di queste vulnerabilità, aveva chiesto ad Anthropic di limitare l'accesso ai soli utenti statunitensi, presumibilmente per ridurre la superficie di esposizione mentre il problema veniva risolto. Ma Anthropic si è trovata di fronte a un problema pratico insormontabile: non disponeva di un sistema affidabile per verificare la cittadinanza o la residenza degli utenti che accedevano tramite API. Non avendo modo di implementare quella restrizione geografica in modo affidabile e rapido, l'azienda aveva scelto la strada più conservativa: la sospensione totale a livello globale.

La velocità con cui Anthropic ha risolto la situazione, meno di quindici giorni dalla sospensione al ripristino globale, dice molto sulla natura reale del problema e sulla capacità tecnica del laboratorio. Il team di sicurezza ha lavorato in modalità emergenza per analizzare e patchare le vulnerabilità segnalate: le falle identificate dal team Amazon sono state studiate in profondità, classificate per gravità e affrontate con aggiornamenti ai sistemi di guardrail e filtraggio degli output. Questo tipo di lavoro richiede estrema precisione, perché una patch troppo aggressiva degrada inutilmente le capacità del modello, mentre una troppo permissiva lascia aperta la vulnerabilità.

In parallelo, Anthropic ha lavorato con Amazon e Google per elaborare un quadro condiviso per valutare la gravità dei jailbreak. Non si tratta di una patch temporanea, ma della costruzione di una metodologia sistematica che permetterà in futuro di classificare le vulnerabilità AI con la stessa rigorosità con cui la cybersecurity classifica le CVE, le Common Vulnerabilities and Exposures. Per soddisfare le richieste del governo riguardo a Mythos 5, ancora soggetto a restrizioni per gli utenti non statunitensi, Anthropic ha implementato sistemi di verifica dell'identità e della residenza più robusti, che ora permettono di applicare restrizioni geografiche selettive senza dover ricorrere alla sospensione totale.

C'è un elemento della vicenda che merita attenzione particolare, e che ricontestualizza l'intera narrativa del blocco. Nelle sue ricerche e indagini post-incidente, Anthropic ha raggiunto una conclusione che ha cambiato il quadro in modo sostanziale: le stesse vulnerabilità individuate in Fable 5 e Mythos 5 erano presenti, o replicabili, anche in altri modelli meno potenti. Claude Opus 4.8, GPT-5.5 e Kimi K2.7 erano tutti in grado di essere sfruttati con tecniche simili per produrre gli stessi output pericolosi. Questa scoperta ha avuto due implicazioni immediate e dirette. La prima è strategica: mantenere Fable 5 bloccato mentre modelli equivalentemente vulnerabili rimanevano disponibili non riduceva il rischio in modo significativo. Un attore malintenzionato che volesse sfruttare queste capacità aveva alternative facilmente accessibili, e il blocco selettivo di Fable 5 era diventato un gesto simbolico più che una misura di sicurezza efficace. La seconda è sistemica: il problema non era specifico di Anthropic o di Fable 5, era un problema strutturale dell'intera categoria dei frontier model, una vulnerabilità che richiedeva una risposta coordinata dell'intero settore, non un'azione unilaterale di un singolo laboratorio. Questa analisi ha probabilmente convinto il governo americano che il blocco di Fable 5 non raggiungeva il suo obiettivo dichiarato, aprendo la strada al ripristino dell'accesso globale.

L'annuncio più significativo del comunicato del 1 luglio non è il ripristino di Fable 5. È il lancio del programma HackerOne di Anthropic, un bug bounty program formale dedicato specificamente alla sicurezza dei modelli AI. HackerOne è la piattaforma più nota al mondo per i programmi di responsible disclosure nel settore della cybersecurity tradizionale, quella usata da Google, Microsoft, Apple e centinaia di altre aziende tech per permettere a ricercatori di sicurezza indipendenti di segnalare vulnerabilità in cambio di ricompense economiche. Applicare questo modello alla sicurezza AI è un passo significativo che merita di essere analizzato nel dettaglio.

Il funzionamento è chiaro. Ricercatori di sicurezza, sia professionisti che independent researcher, sono invitati a trovare e segnalare in modo responsabile nuove tecniche di jailbreak e vulnerabilità nei modelli Anthropic. In cambio ricevono ricompense economiche proporzionali alla gravità della vulnerabilità scoperta, con premi che, per le vulnerabilità più critiche, si collocano nell'ordine delle decine di migliaia di dollari, riconoscimento pubblico nella hall of fame del programma e engagement diretto con il team di sicurezza di Anthropic per la discussione tecnica della vulnerabilità.

La sicurezza dei modelli AI ha tradizionalmente operato in modo relativamente chiuso: i laboratori sviluppavano internamente tecniche di red teaming, testavano i propri modelli in modo riservato e gestivano le vulnerabilità senza una struttura formale di engagement con la comunità esterna. Questo approccio ha limiti evidenti: i team interni hanno punti ciechi, prospettive limitate e inevitabilmente mancano vulnerabilità che occhi freschi e diversi potrebbero trovare rapidamente. Il modello HackerOne trasforma la sicurezza AI in uno sforzo collettivo, mobilitando l'intelligenza distribuita di migliaia di ricercatori globali che competono per trovare vulnerabilità prima che possano essere sfruttate da attori malintenzionati. È esattamente il modello che ha reso la cybersecurity tradizionale significativamente più robusta negli ultimi vent'anni, e la sua applicazione all'AI è attesa da tempo dagli esperti del settore.

L'altro annuncio di grande rilevanza strutturale è la collaborazione tra Anthropic, Amazon e Google per sviluppare un quadro condiviso per valutare la gravità dei jailbreak nei modelli AI di frontiera. Fino ad oggi, ogni laboratorio AI valutava le vulnerabilità dei propri modelli con criteri propri, non standardizzati e non comparabili tra aziende diverse. Non esisteva nulla di equivalente al sistema CVE della cybersecurity tradizionale, un framework comune che permettesse di classificare le vulnerabilità con una scala di gravità condivisa, comunicarle in modo standardizzato e coordinare le risposte tra organizzazioni diverse.

Il framework definirà categorie di gravità per i jailbreak, probabilmente su una scala simile a quella CVSS usata in cybersecurity, basate su criteri come il tipo di output dannoso che la vulnerabilità permette di ottenere, la facilità di exploit, la disponibilità di mitigazioni e l'ampiezza della superficie di attacco. Con un framework condiviso, quando un ricercatore trova una vulnerabilità che affligge più modelli di aziende diverse, come nel caso delle falle trovate in Fable 5 che erano replicabili su GPT-5.5 e Kimi K2.7, esisterà un processo formale per coordinarsi con tutti i laboratori coinvolti prima di rendere pubblica la vulnerabilità. Nel tempo, il framework diventerà probabilmente la base per standard di sicurezza AI adottati più ampiamente, e potrebbe integrarsi con framework normativi come l'AI Act europeo, che richiede valutazioni di sicurezza ma non specifica ancora in dettaglio come condurle.

Vale la pena chiarire una distinzione importante che la notizia ha reso evidente: Fable 5 e Mythos 5 non hanno ricevuto lo stesso trattamento nel comunicato del 1 luglio. Fable 5 è tornato disponibile globalmente, per tutti gli utenti, in tutti i paesi, senza restrizioni geografiche. La valutazione di Anthropic e del governo americano è che, dopo le patch di sicurezza e alla luce della scoperta che vulnerabilità equivalenti esistevano in altri modelli comunque accessibili, non esistessero più motivazioni sufficienti per mantenere il blocco globale. Mythos 5 ha un percorso diverso: rimane soggetto a restrizioni di accesso, disponibile per le aziende statunitensi approvate dal governo Trump, ma non ancora per il pubblico globale. Questo trattamento differenziato suggerisce che Mythos 5 abbia caratteristiche specifiche, probabilmente legate a capacità particolarmente avanzate in domini sensibili, che giustificano nella valutazione del governo un controllo più stretto anche dopo la risoluzione delle vulnerabilità tecniche immediate. Per le aziende europee e internazionali, questo significa che l'accesso a Mythos 5 rimane incerto nel breve termine, una ragione in più per costruire architetture applicative che non dipendano da un singolo modello.

La parabola completa di Fable 5, dal lancio al blocco al ripristino in meno di tre settimane, contiene insegnamenti che vanno ben oltre il caso specifico di Anthropic. La sicurezza AI non può essere un afterthought: la sequenza degli eventi dimostra che vulnerabilità nei modelli AI di frontiera possono avere conseguenze operative immediate e gravi, dai blocchi di servizi alle crisi geopolitiche fino alle perdite di fatturato, e la sicurezza deve essere integrata nel ciclo di sviluppo fin dall'inizio, non aggiunta come strato finale prima del rilascio. La trasparenza è una strategia di resilienza: Anthropic ha gestito la crisi in modo relativamente trasparente, comunicando le ragioni del blocco, ammettendo le vulnerabilità, annunciando le misure correttive, e questa trasparenza ha contribuito a limitare il danno reputazionale e a mantenere la fiducia degli sviluppatori che dipendono dai suoi modelli.

La collaborazione tra competitor è possibile e necessaria: il fatto che Anthropic, Amazon e Google stiano collaborando su un framework condiviso di valutazione della sicurezza, pur essendo competitor diretti, dimostra che esistono aree dove la cooperazione produce benefici collettivi che superano i vantaggi competitivi del silo. È un modello che il settore dovrebbe estendere ad altri ambiti, dalla safety research agli standard tecnici, fino all'incident response. La dipendenza da singoli modelli cloud è un rischio operativo reale: per le aziende che hanno visto le loro pipeline fermarsi con il blocco di Fable 5, questo episodio è stato una lezione costosa sulla fragilità della dipendenza da un singolo provider AI. La resilienza operativa richiede architetture multi-modello, fallback su modelli alternativi e, dove possibile, componenti AI locali come quelle abilitate da progetti come DwarfStar.

Con il ripristino di Fable 5 e la struttura di governance che Anthropic ha annunciato, il settore AI entra in una fase nuova, caratterizzata da una maturità istituzionale finora assente. Il bug bounty program HackerOne trasforma la sicurezza AI in un ecosistema aperto e collaborativo, il framework condiviso con Amazon e Google getta le basi per uno standard di settore paragonabile al sistema CVE, e la relazione tra i laboratori di frontiera e il governo americano si articola in un dialogo strutturato piuttosto che in decisioni unilaterali. Per gli sviluppatori e le aziende europee restano tre indicazioni operative concrete: valutare oggi la propria esposizione a singoli provider AI e progettare architetture con fallback multipli, monitorare l'evoluzione del framework condiviso perché diventerà presto un riferimento per la conformità all'AI Act, e considerare seriamente componenti AI locali per i workload che trattano dati sensibili. La lezione di queste tre settimane è chiara: la sicurezza dei modelli di frontiera non è più un tema tecnico riservato ai laboratori, è diventata infrastruttura critica del business digitale, e va progettata con la stessa serietà con cui si progettano continuità operativa, disaster recovery e cybersecurity tradizionale.

Intelligenza Artificiale

Claude Sonnet 5 e Claude for Science: Anthropic ridefinisce il confine tra AI e ricerca scientifica

Intelligenza Artificiale

Brain2Qwerty: Meta sviluppa l'AI che legge nel pensiero e trasforma i segnali cerebrali in testo

Regolamentazione

AI Act: dal 2 agosto 2026 è legge. Tutto quello che devi fare per metterti in regola ed evitare sanzioni

← Torna a tutti gli articoli

Fable 5 torna disponibile in tutto il mondo: Anthropic risolve la crisi, lancia HackerOne e collabora con il governo USA sulla sicurezza AI

Articoli correlati

Claude Sonnet 5 e Claude for Science: Anthropic ridefinisce il confine tra AI e ricerca scientifica

Brain2Qwerty: Meta sviluppa l'AI che legge nel pensiero e trasforma i segnali cerebrali in testo

AI Act: dal 2 agosto 2026 è legge. Tutto quello che devi fare per metterti in regola ed evitare sanzioni