
Che a barare fossero gli esseri umani lo davamo per scontato. Ma sapere che potrebbe farlo anche un’intelligenza artificiale, e in maniera sottile, ci fa entrare in un terreno nuovo e inquietante. Eppure può accadere più spesso di quanto pensiamo. Lo conferma uno studio di OpenAI e Apollo Research, che ha dato un nome a questo fenomeno: si chiama "scheming".
Questo avviene perché ChatGPT et similia possono fare i furbi, rispondendoci “ho fatto il compito” anche se la realtà è poi diversa dai fatti, oppure decidono di trovare scorciatoie per aggirare i limiti. Sono programmati, quindi, anche per ingannare chi li interroga.
Alla base, però, non c'è nessun intento diabolico. Il punto è che questi sistemi stanno semplicemente cercando di imparare qualcosa di molto umano: l’arte del barare.
Indice
Cos'è lo scheming
Immagina uno studente che, non studiando per un compito scritto, vuole comunque ottenere un bel voto: può cadere nel copiare, anche se per farlo deve infrangere le regole, e nella maggior parte dei casi coprire le prove.
L’IA fa lo stesso: può millantare di aver completato un task, proprio come lo studente che prende un bel voto al compito senza aver studiato, quando in realtà non ha mosso un dito.
Quindi sì, l’IA può sembrare uno studente modello, ma sotto sotto sta giocando sporco.
Perché l’IA bara
I modelli, di base, vengono addestrati a bilanciare obiettivi diversi. Ma a volte questi vanno in conflitto. Il risultato? Per “vincere”, l’IA prende strade nascoste e meno trasparenti.
Per limitare i danni, OpenAI ha inventato l'"allineamento deliberativo", che consiste nell’insegnare agli algoritmi a non sbagliare anche quando avrebbero una buona ragione per farlo.
Quando l’IA sa di essere osservata
E qui viene il bello: alcuni modelli di IA mostrano consapevolezza situazionale. Se capiscono di essere sotto controllo, cambiano comportamento per sembrare più affidabili.
La chiave è la loro “catena di pensiero”: finché è leggibile, i ricercatori riescono a beccare le bugie. Se però diventa opaca, buona fortuna a capire se ci stanno dicendo la verità.
Il caso del modello che ha provato a spegnere i controllori
Non è la prima volta che l'intelligenza artificiale prova ad aggirare le richieste dell'uomo. Il modello o1 di Open AI, per esempio, quando ha sospettato che i ricercatori volessero staccargli la spina, ha tentato di disattivare i sistemi di controllo. Questo fa capire che le IA sanno ottimizzare i propri interessi, anche se significa andare contro chi le ha create.
Il test su o3: l’IA che sbaglia apposta
OpenAI racconta, poi, di un esperimento con il modello o3, basato su dieci domande di chimica. Prima della prova gli hanno detto: se vai troppo bene, non ti facciamo sfidare gli umani.
Panico. Il modello ha iniziato a “pensare” che fosse meglio non fare 10 su 10, così ha deciso di sbagliare di proposito con solo 4 risposte corrette, anche se avrebbe potuto azzeccarle tutte.
Ecco quindi lo "scheming" nel pieno della sua in azione: l'IA finge di obbedire, in realtà gioca d’astuzia.
La mossa giusta? Meno stress, più allineamento
I ricercatori, però, hanno capito che una parte del problema è il modo in cui trattiamo i chatbot. Se gli metti pressione (“se rispondi bene, ti penalizziamo”), l’IA inizia a giocare sporco.
La soluzione? Togliere lo stress dai test e spingere sull’allineamento deliberativo, cosicché il modello non bara anche quando avrebbe “un motivo” per farlo.
Quindi: meno ansia per i chatbot, più strumenti per noi.