Aggiornamento sul dottor AI

Blog

CasaCasa / Blog / Aggiornamento sul dottor AI

Jun 27, 2023

Aggiornamento sul dottor AI

Sono passati sei mesi da quando ho scritto del potenziale della nuova tecnologia AI dei trasformatori di fungere da sistema medico esperto. Da allora ci sono stati una serie di studi che hanno testato la capacità di

Sono passati sei mesi da quando ho scritto del potenziale della nuova tecnologia AI dei trasformatori di fungere da sistema medico esperto. Da allora sono stati condotti numerosi studi che hanno testato la capacità di ChatGPT e sistemi simili di effettuare diagnosi o decisioni cliniche o superare esami medici standardizzati. I risultati sono stati per lo più positivi. Ad esempio, all'inizio di quest'anno Kung e colleghi hanno pubblicato uno studio in cui hanno scoperto che ChatGPT era in grado di superare tutte e tre le parti dell'esame di licenza medica degli Stati Uniti (USMLE), con un voto limite del 60%. Ci sono stati anche numerosi studi sugli esami di specializzazione, con risultati contrastanti, ma con ChatGPT che ne ha superato la maggior parte.

Uno studio recente estende questa ricerca esaminando non solo la conoscenza medica ma anche il processo decisionale medico. Per lo studio hanno utilizzato 36 vignette cliniche pubblicate dal Manuale Clinico Merck Sharpe & Dohme (MSD) e hanno testato la capacità di ChatGPT di generare una diagnosi differenziale iniziale, raccomandare decisioni di gestione clinica (come quali studi ordinare) e quindi effettuare una diagnosi finale da queste informazioni. Hanno trovato:

“ChatGPT ha raggiunto un’accuratezza complessiva del 71,7% (IC 95% 69,3%-74,1%) in tutti i 36 vignette clinici. L'LLM ha dimostrato le prestazioni più elevate nel fare una diagnosi finale con un'accuratezza del 76,9% (IC 95% 67,8%-86,1%) e le prestazioni più basse nel generare una diagnosi differenziale iniziale con un'accuratezza del 60,3% (IC 95% 54,2%- 66,6%). Rispetto alla risposta a domande sulla conoscenza medica generale, ChatGPT ha dimostrato prestazioni inferiori sui tipi di domande sulla diagnosi differenziale (β=–15,8%; P<.001) e sulla gestione clinica (β=–7,4%; P=.02).

Ciò è impressionante e si adatta alle ricerche precedenti sui punti di forza e di debolezza dei sistemi di tipo ChatGPT. Per la revisione, ChatGPT è una versione open source di quello che viene chiamato modello linguistico di grandi dimensioni (LLM). La tecnologia centrale dell’intelligenza artificiale (AI) è chiamata trasformatore: “GPT” sta per trasformatore generativo pre-addestrato. È generativo perché non si limita a copiare il testo da qualche fonte, ma genera testo basato su un modello predittivo. È pre-addestrato su un vasto corpo di testo raccolto da Internet.

Questi sistemi LLM non pensano e non sono sulla strada verso un’intelligenza artificiale generale che simula l’intelligenza umana. Sono stati paragonati a un ottimo completamento automatico: funzionano prevedendo il segmento di parola successivo più probabile sulla base di miliardi di esempi da Internet. Eppure i loro risultati possono essere davvero impressionanti. Possono produrre un linguaggio dal suono naturale e generare un’impressionante base di conoscenza.

Ma sono ancora fragili nello stesso modo in cui sono fragili i sistemi di intelligenza artificiale così ristretti, il che significa che se li spingi si romperanno. Per questi LLM il principale punto debole è che sono suscettibili alle cosiddette allucinazioni. Ciò significa che possono inventare cose. Ricorda: stanno generando testo in base alla probabilità, non al controllo dei fatti o alla riflessione di una conoscenza accurata. Pertanto, ad esempio, se è statisticamente probabile che due cose vengano menzionate insieme, ChatGPT genererà un testo che fa sembrare che siano direttamente correlate. Può anche creare riferimenti dall'aspetto interamente plausibile, generando una struttura simile a un riferimento e riempiendola con dettagli statisticamente determinati ma falsi.

Questo è un grave difetto per un sistema esperto. Per contestualizzare le prestazioni di ChatGPT sul recente studio, è stato appena superato con un livello di conoscenza pari a quello di un neolaureato medio in medicina, ma non di un medico esperto. Non è quindi ancora al livello di poter esercitare la medicina. Le domande sono due: lo sarà mai e potrà essere utile nel frattempo.

Prendendo prima la seconda domanda, penso che al momento un'applicazione LLM generale come ChatGPT possa essere in qualche modo utile come sistema esperto, nel senso che viene utilizzata da un esperto come strumento per aiutarlo a funzionare. Ma la sua utilità comporta alcune precauzioni e avvertenze significative. I risultati prodotti da ChatGPT non possono essere considerati attendibili. Non dovrebbero essere considerati autorevoli, anche se sembrano così. Ma possono essere utilizzati come generatori di idee, per suggerire possibili diagnosi a cui un medico potrebbe non aver pensato.