L'intelligenza artificiale (IA) ha recentemente apportato contributi significativi in molteplici campi, incluso quello medico, grazie all'avvento di tecniche avanzate come il deep learning e il machine learning. I chatbot di IA, che utilizzano l'elaborazione del linguaggio naturale (NLP) per interagire con gli utenti in modo simile alle conversazioni umane, sono diventati uno strumento importante in questo contesto. Tra i chatbot che utilizzano modelli linguistici avanzati (LLM), ChatGPT, Google Bard e Claude rappresentano alcuni esempi rilevanti. Tuttavia, il ruolo dei chatbot nell'odontoiatria pediatrica resta poco esplorato.
Confrontare chatbot e clinici
L’obiettivo di questo studio pilota è stato confrontare le capacità dei chatbot e dei clinici umani (dentisti pediatrici, odontoiatri generici e studenti) nel rispondere a domande vero o falso relative all’odontoiatria pediatrica. Il focus dello studio è stato esaminare l'accuratezza e la coerenza delle risposte per determinare se i chatbot possano essere considerati strumenti affidabili in questo contesto.
Analisi delle risposte
Due esperti in odontoiatria pediatrica hanno sviluppato un set di trenta domande di tipo "vero o falso" su vari aspetti della disciplina. Le domande sono state somministrate a otto chatbot pubblicamente accessibili, tra cui ChatGPT-4, ChatGPT-3.5, Claude 2 100k, e Google Palm. Le risposte dei chatbot sono state ottenute da tre diverse conversazioni per assicurare la variabilità e la coerenza. Anche tre gruppi di clinici, ciascuno composto da 20 partecipanti (dentisti pediatrici, dentisti generici e studenti di odontoiatria), hanno risposto alle stesse domande. Le risposte sono state valutate in base alla correttezza da due esperti del settore e da un terzo valutatore indipendente.
I risultati ottenuti sono stati confrontati utilizzando l'analisi della varianza (ANOVA) e un test post-hoc (HSD di Tukey) per individuare differenze significative tra i gruppi. La coerenza è stata valutata tramite l’alfa di Cronbach.
Accuratezza dei clinici rispetto ai chatbot
I dentisti pediatrici hanno ottenuto il punteggio di accuratezza più alto (media ± DS 96,67% ± 4,3%), seguiti dai dentisti generici (88,0% ± 6,1%) e dagli studenti di odontoiatria (80,8% ± 6,9%). Tra i chatbot, ChatGPT-4 ha raggiunto l'accuratezza massima (78% ± 3%), mentre gli altri modelli hanno mostrato una minore precisione. Google Bard e Google Palm sono stati esclusi dall'analisi in quanto non hanno risposto adeguatamente a oltre dieci domande. ChatGPT-4 e altri chatbot, eccetto ChatGPT-3.5, hanno mostrato una coerenza accettabile (alfa di Cronbach > 0,7).
Riflessioni sull'uso dei chatbot
I risultati indicano che, nonostante i chatbot abbiano dimostrato una buona coerenza nelle risposte, l’accuratezza complessiva rimane inferiore rispetto ai clinici umani, soprattutto agli specialisti pediatrici. I chatbot potrebbero essere impiegati come strumenti complementari per attività educative e per diffondere informazioni ai pazienti, ma attualmente non sono idonei a sostituire la consulenza clinica professionale.
Nel confronto tra i vari chatbot, ChatGPT-4 ha fornito le risposte più accurate, dimostrando il potenziale dei LLM più avanzati rispetto ai modelli precedenti. Tuttavia, rimangono evidenti limitazioni nella loro capacità di rispondere con precisione alle domande di odontoiatria pediatrica, rendendo necessaria la supervisione umana.
La necessità della supervisione clinica
Questo studio pilota ha evidenziato che i chatbot, pur mostrando una certa affidabilità nelle risposte, non sono ancora paragonabili ai clinici esperti in termini di accuratezza. Pertanto, al momento non è consigliabile affidarsi esclusivamente a questi strumenti per la pratica clinica in odontoiatria pediatrica. I clinici, specialmente gli specialisti, dovrebbero continuare a essere la principale fonte di informazioni e di diagnosi per i pazienti pediatrici.