Uno studio pubblicato su JAMA Network Open ha valutato le performance di 21 modelli di intelligenza artificiale, tra cui GPT-5, Claude 4.5, Gemini 3.0 e Grok 4, analizzandone il comportamento lungo l’intero processo decisionale clinico.
Un nuovo metodo per valutare il ragionamento clinico
Uno degli elementi più rilevanti dello studio è l’introduzione di un nuovo indice di valutazione, il PrIME-LLM, progettato per misurare la capacità dei modelli di gestire in modo equilibrato tutte le fasi del ragionamento clinico.
A differenza dei test tradizionali – spesso basati su domande a scelta multipla – questo approccio analizza cinque dimensioni fondamentali:
- diagnosi differenziale,
- test diagnostici,
- diagnosi finale,
- gestione terapeutica,
- ragionamento clinico generale.
L’obiettivo è superare una visione “parziale” delle performance, che può nascondere criticità rilevanti nella pratica clinica.
I risultati mostrano un quadro apparentemente positivo: i modelli più avanzati raggiungono livelli di accuratezza elevati nella diagnosi finale e nella gestione del paziente.
Tuttavia, emergono limiti significativi nelle fasi iniziali del ragionamento. In particolare, la diagnosi differenziale rappresenta il punto più critico: tutti i modelli analizzati mostrano tassi di errore molto elevati in questa fase, spesso superiori all’80%.
Questo dato è particolarmente rilevante, perché la capacità di costruire una diagnosi differenziale rappresenta uno degli aspetti più complessi e centrali del processo clinico.
Il rischio: “saltare” il ragionamento
Lo studio evidenzia una dinamica importante: i modelli tendono a convergere rapidamente verso una risposta finale corretta, senza attraversare in modo robusto le fasi intermedie del ragionamento.
In altre parole, l’intelligenza artificiale può arrivare alla diagnosi giusta, ma senza dimostrare un percorso clinico affidabile. Questo comportamento può risultare problematico in contesti reali, dove l’incertezza e la valutazione progressiva delle ipotesi sono fondamentali.
I modelli progettati specificamente per il ragionamento mostrano performance migliori rispetto a quelli standard, con punteggi più elevati nel PrIME-LLM. Tuttavia, il miglioramento è incrementale e non risolve le criticità principali.
Anche l’integrazione di input multimodali, come immagini radiologiche, produce benefici limitati e non uniformi tra i modelli.
Il messaggio dello studio è chiaro: nonostante i progressi, gli LLM non sono ancora pronti per un utilizzo autonomo in ambito clinico.
La principale criticità riguarda la gestione dell’incertezza. I clinici costruiscono e aggiornano continuamente ipotesi diagnostiche, mentre i modelli tendono a “collassare” su una singola risposta, riducendo la qualità del processo decisionale.
Per questo motivo, gli autori sottolineano che il ruolo più appropriato, allo stato attuale, è quello di strumento di supporto sotto supervisione clinica, soprattutto in contesti a bassa complessità.
Verso un’integrazione più sicura
Lo studio introduce un punto di riferimento importante per il futuro: valutare l’intelligenza artificiale non solo per l’accuratezza finale, ma per la qualità del ragionamento lungo tutto il percorso clinico.
Per il settore odontoiatrico e sanitario in generale, questo significa una cosa precisa: l’AI può essere un alleato, ma non può ancora sostituire il processo decisionale del professionista.

