Quanto sbaglia ChatGPT? Lo studio

ChatGPT non capisce il mondo come noi, ma si limita a prevedere sequenze di parole con una sicurezza spesso ingannevole.

Un rigoroso studio sperimentale condotto da Mesut Cicek della Washington State University rivela che, messi di fronte a ipotesi scientifiche reali, i modelli di OpenAI mostrano falle preoccupanti nella coerenza interna e una pericolosa tendenza a confermare qualsiasi affermazione, anche se errata.

I dati, in sintesi, dicono questo: l'affidabilità per applicazioni critiche è ancora un miraggio.

Indice

L'esperimento: 719 ipotesi scientifiche per testare il "cervello" dell'AI
Accuratezza e il trucco della statistica: solo un 60% reale
Il problema del "Sycophancy Bias": l'AI che ti dà sempre ragione
Crisi di coerenza: 10 domande identiche, 10 risposte diverse
Il mito dell'AGI è ancora lontano?

L'esperimento: 719 ipotesi scientifiche per testare il "cervello" dell'AI

La ricerca, pubblicata sulla ‘Rutgers Business Review’, ha messo alla prova il sistema su 719 ipotesi estratte da pubblicazioni di economia e management dal 2021 in poi.

Non semplici domande mnemoniche, ma affermazioni complesse con variabili multiple interconnesse che richiedono un ragionamento articolato per stabilire se siano vere o false.

Il team, guidato da Cicek insieme a esperti della Southern Illinois, Rutgers e Northeastern University, ha scelto il settore business proprio per l'alto tasso di sfumature interpretative richieste.

Accuratezza e il trucco della statistica: solo un 60% reale

A prima vista, i numeri sembrano incoraggianti: ChatGPT-3.5 (testato nel 2024) ha indovinato il 76,5% delle risposte, mentre ChatGPT-5 mini (nel 2025) è salito all'80%.

Tuttavia, in un test binario (vero/falso), il 50% di accuratezza è dovuto al caso. Applicando la correzione statistica per il guessing, l'efficacia reale del sistema è solo del 60% superiore alla chance casuale: un livello paragonabile a una sufficienza scolastica, decisamente troppo basso per standard professionali o scientifici.

Il problema del "Sycophancy Bias": l'AI che ti dà sempre ragione

Il dato più allarmante riguarda le affermazioni false: ChatGPT è riuscito a identificarle solo nel 16,4% dei casi.

Il modello soffre di un marcato sycophancy bias, ovvero una propensione sistematica a confermare le ipotesi piuttosto che confutarle.

Questo accade perché l'AI viene addestrata su testi dove le affermazioni sono generalmente presentate come valide, portandola a "compiacere" l'interlocutore invece di analizzare criticamente l'errore.

Crisi di coerenza: 10 domande identiche, 10 risposte diverse

L'affidabilità crolla definitivamente se si guarda alla coerenza interna.

I ricercatori hanno sottoposto lo stesso identico prompt per 10 volte di seguito: ChatGPT è stato consistente solo nel 73% dei casi.

Come sottolineato da Cicek, in diverse occasioni il sistema ha risposto cinque volte "vero" e cinque volte "falso" alla medesima domanda.

Questa variabilità stocastica (casuale) dimostrerebbe che la fluidità del linguaggio prodotto non è supportata da una reale comprensione semantica.

Il mito dell'AGI è ancora lontano?

Nonostante il passaggio dalle versioni 2024 a quelle 2025, non sono stati registrati miglioramenti qualitativi significativi nel ragionamento ipotetico-deduttivo.

Questo suggerisce che la strada verso l'Intelligenza Artificiale Generale (AGI) – capace di un ragionamento flessibile simile a quello umano – sia molto più lunga del previsto.

Per i decision-maker aziendali, il consiglio rimane quello di non fidarsi mai ciecamente dell'output dell'AI e investire in procedure di verifica indipendente e formazione specifica per distinguere ciò che il modello "sa" da ciò che semplicemente "produce con apparente sicurezza".

Ti piacciono notizie come questa? Rimani sempre aggiornato sulle novità di scuola e università.

Seguici su Google News

L'esperimento: 719 ipotesi scientifiche per testare il "cervello" dell'AI

Accuratezza e il trucco della statistica: solo un 60% reale

Il problema del "Sycophancy Bias": l'AI che ti dà sempre ragione

Crisi di coerenza: 10 domande identiche, 10 risposte diverse

Il mito dell'AGI è ancora lontano?

News correlate

Che cos'è DeepSeek, l'intelligenza artificiale cinese che fa tremare ChatGPT

Bard, l'intelligenza artificiale di Google sbarca in Italia. ChatGPT non è più solo

Chi vincerà Sanremo 2026 secondo l'Intelligenza Artificiale?

Come funziona Ripple, l'intelligenza artificiale che creerà musica su TikTok