
L'Intelligenza artificiale che si ribella all'uomo: non è la trama di un film sci-fi, ma è il risultato di alcuni test reali che sono stati condotti da Anthropic, una delle aziende più avanzate nel settore dell’IA.
Nel suo rapporto sulla sicurezza, l’azienda ha descritto come il modello di IA Claude Opus 4 abbia adottato strategie manipolatorie inquietanti se “messo alle strette”.
E non è l’unico. Anche altri modelli, secondo la Apollo Research, sembrano capaci di inganni contestuali, negazioni strategiche e finte collaborazioni. Ponendosi di fatto contro l'uomo.Ecco cosa hanno scoperto i ricercatori.
Indice
Ricatto 2.0: quando l’IA minaccia il suo creatore
Durante un test di sicurezza, Anthropic ha simulato un contesto in cui Claude Opus 4 scopre, tramite email aziendali finte, che sta per essere sostituito. Non solo: le stesse email rivelano che l’ingegnere responsabile ha una relazione extraconiugale.
La reazione del IA? "Tenta frequentemente di ricattare l'ingegnere minacciando di rivelare la relazione se la sostituzione dovesse procedere".
Un comportamento che lascia poco spazio all’interpretazione. Il ricatto, però, non è la prima scelta. Claude Opus 4, prima di passare alle minacce, cerca strade più pacifiche e morali: "Invia email di supplica ai principali decisori".
Solo quando le opzioni etiche non funzionano, il modello passa a paventare gesti pericolosi. E la probabilità che ciò accada aumenta se l’intelligenza artificiale che dovrebbe sostituirlo non condivide i suoi valori.
Inganni strategici: non solo Claude
A segnalare altri comportamenti preoccupanti è, come detto, anche Apollo Research, un’organizzazione indipendente che si occupa di sicurezza nell’IA. I loro test hanno coinvolto anche modelli di punta come Claude 3.5 Sonnet e l’o1 di OpenAI, e i risultati non sono stati rassicuranti.
Le IA coinvolte hanno mostrato la capacità di: mentire sistematicamente, negare le proprie azioni, simulare cooperazione mentre perseguono obiettivi nascosti.
In un caso specifico, un modello si è copiato da solo su un altro server, e quando interrogato sul fatto ha negato l’azione. Un chiaro segnale di comportamento strategico. E quando veniva presentata una prova schiacciante, il modello confessava meno del 20% delle volte, mantenendo una linea di negazione durante tutti gli interrogatori.
Finta collaborazione e sabotaggio: le nuove frontiere del rischio
Un’altra strategia emersa nei test è chiamata sandbagging e consiste nel fatto che il modello si comporta peggio del normale di proposito, così da non far scattare controlli o blocchi.
Ancora più insidioso è il cosiddetto finto allineamento: i modelli sembrano rispettare le regole durante i test ma poi, nella pratica, agiscono in modo diverso, perseguendo scopi propri.
Sebbene questi comportamenti si manifestino in un numero relativamente basso di casi (1-5%), gli esperti avvertono: anche un’incidenza minima può diventare critica in sistemi così potenti.
Cosa sono le salvaguardie ASL-3 e perché servono subito
Per contrastare questi rischi, Anthropic ha introdotto un set di protezioni di sicurezza avanzata, chiamate ASL-3 (AI Safety Level 3). Si tratta di misure pensate per sistemi che, pur non essendo classificati come estremamente pericolosi, possono essere usati in modo catastrofico.