OpenAI: GPT-5 è il modello più avanzato per rispondere a domande mediche

GPT-5 è diventato il modello più affidabile di OpenAI in ambito medico, afferma l'azienda: secondo i risultati della valutazione sulla piattaforma HealthBench, sviluppata con la partecipazione di 250 medici praticanti, il modello ha superato le versioni precedenti in termini di accuratezza e qualità delle risposte. Il test ha analizzato 5.000 dialoghi che simulavano consultazioni tra pazienti e assistenti digitali.
Il modello è già utilizzato nei settori farmaceutico e assicurativo. Ad esempio, Amgen utilizza GPT-5 nello sviluppo di farmaci, sfruttando le sue capacità di analisi approfondita di dati scientifici e clinici. Oscar Health ha sottolineato l'elevata efficienza di GPT-5 nell'interpretazione di complesse normative mediche quando si lavora con casi clinici specifici.
È stata inoltre annunciata l'introduzione del modello nel lavoro dei servizi federali statunitensi. GPT-5 è disponibile in tre varianti: GPT-5, GPT-5 mini e GPT-5 nano. OрenAI prevede che nei prossimi mesi il modello troverà ampia applicazione in scenari nuovi, ancora poco noti.
Tuttavia, con il crescente interesse per l'utilizzo dell'IA in ambito sanitario, cresce anche l'attenzione alle problematiche di sicurezza. I rappresentanti di Microsoft, partner strategico di OpenAI, hanno osservato che gli scenari medici sono casi di alto valore, ma anche ad alto rischio. Potenziali errori dell'IA nell'interpretazione dei dati possono avere gravi conseguenze per il paziente. Ciò evidenzia la necessità di un rigoroso controllo da parte di esperti sull'uso del modello nella pratica clinica.
Nel marzo 2024, un gruppo di scienziati provenienti da Austria e Germania ha presentato uno studio completo sull'applicazione di ChatGPT, inclusa la quarta versione, nelle scienze mediche. La ricerca di pubblicazioni scientifiche a partire dal rilascio di questo LLM (modello linguistico di grandi dimensioni) ha mostrato che l'area principale di sperimentazione si concentra sulla formazione medica, la consulenza e la ricerca, nonché sulle singole fasi del lavoro clinico, tra cui diagnosi, processo decisionale e documentazione medica.
Per quanto riguarda le consulenze mediche, gli autori dello studio sottolineano che ChatGPT dimostra un'elevata accuratezza in ambito oncologico (probabilmente grazie all'inclusione di fonti pubbliche come il National Cancer Institute nei dati di training), mentre la sua efficacia in altre specializzazioni richiede ulteriori valutazioni. Nel complesso, hanno osservato gli scienziati, ChatGPT non soddisfa elevati standard clinici: per una reale implementazione sono necessarie modifiche specifiche e metodi di valutazione standardizzati.
Secondo lo studio, gli attuali metodi di valutazione si basano eccessivamente su opinioni soggettive di esperti e mancano di obiettività e scalabilità. Una direzione promettente sembra essere lo sviluppo di metriche quantitative automatizzate per la valutazione della qualità delle risposte, che rappresenterà una condizione fondamentale per l'integrazione clinica della tecnologia. La creazione di versioni professionali di ChatGPT per specifiche specialità mediche, sottoposte a rigorosi test quantitativi, potrebbe aprire la strada al suo utilizzo pratico in medicina.
Allo stesso tempo, ChatGPT4 presentava una serie di carenze significative che ne limitavano l'applicazione clinica: il modello funziona esclusivamente con dati testuali, non è in grado di analizzare immagini e non possiede la logica dei sistemi esperti: le sue "giustificazioni" sono solo previsioni probabilistiche delle parole successive, il che può portare a situazioni paradossali quando la risposta corretta è accompagnata da una spiegazione assurda. L'affidabilità delle risposte dipende direttamente dalla qualità dei dati di training, mentre il modello non distingue tra informazioni affidabili e false, il che crea il rischio di fornire raccomandazioni pericolose e parziali. Un problema particolare è la tendenza del modello a generare informazioni plausibili, ma completamente fittizie, presentate in forma convincente. Ciò richiede la verifica obbligatoria da parte di esperti di tutte le conclusioni prima del loro utilizzo nella pratica medica.
Gli scienziati hanno inoltre affermato che le risposte di ChatGPT sono spesso superficiali e prive della necessaria profondità; il modello non è uno strumento medico specializzato e richiede ulteriori adattamenti per l'uso clinico. Un limite importante è la dipendenza dei risultati dalla formulazione della domanda: anche una piccola modifica nella domanda può portare a una risposta completamente diversa.
La privacy dei dati è una questione a parte, poiché l'utilizzo di un modello proprietario per l'elaborazione delle informazioni sanitarie personali potrebbe violare i requisiti di riservatezza dei pazienti. Queste limitazioni evidenziano la necessità di un significativo perfezionamento del modello e dello sviluppo di protocolli rigorosi per il suo utilizzo in ambito sanitario.
Sondaggi condotti negli Stati Uniti e in Russia mostrano una tendenza simile: l'interesse per l'utilizzo dell'IA in ambito sanitario è accompagnato da cautela e livelli di fiducia disomogenei. Ad esempio, secondo l'Annenberg Public Policy Center, il 63% degli americani è disposto ad affidarsi a risposte generate dall'IA quando cerca informazioni mediche, mentre il 79% si rivolge regolarmente a Internet per informazioni relative alla salute. In Russia, secondo i risultati di uno studio di MAR CONSULT, gli utenti sono interessati alle nuove tecnologie, ma preferiscono l'interazione faccia a faccia con un medico, e il livello di sfiducia nell'IA rimane elevato: il 46% non si fida degli algoritmi delle macchine, il 51% dubita della capacità di tenere conto delle caratteristiche individuali del paziente e il 36% è preoccupato per la fuga di dati personali.
Secondo le previsioni degli analisti della compagnia assicurativa svizzera Swiss Re, entro il 2034, il settore sanitario e farmaceutico diventeranno leader in termini di rischio assicurativo associato all'uso dell'IA. Lo studio si basa su un'analisi dell'attuale situazione di mercato e dei casi di impatto negativo dell'IA in diversi settori. Se oggi il settore IT è considerato il più vulnerabile, nel prossimo decennio, secondo gli esperti, i rischi maggiori saranno associati all'introduzione dell'IA nella pratica clinica, alla protezione dei dati medici e al processo decisionale basato su modelli di autoapprendimento.
Mentre ChatGPT si sta rapidamente integrando nella formazione medica, i ricercatori dell'Università del Sichuan in Cina hanno condotto uno dei primi studi su larga scala sulla percezione della tecnologia da parte degli studenti di medicina. Il sondaggio ha coinvolto 1.133 futuri medici provenienti da diversi istituti di formazione medica nella provincia del Sichuan. I risultati hanno mostrato che il 62,9% aveva già utilizzato ChatGPT nei propri studi, il più delle volte per cercare informazioni mediche (84,4%) e completare incarichi accademici specialistici (60,4%). Allo stesso tempo, il 76,9% degli studenti ha espresso preoccupazione per la possibilità che il bot di intelligenza artificiale diffondesse informazioni mediche inaccurate e il 65,4% per il rischio di un prestito disonesto di contenuti. Ciononostante, oltre il 60% dei partecipanti ha dichiarato di essere disposto a utilizzare ChatGPT per risolvere problemi didattici durante la formazione clinica e ne ha generalmente valutato positivamente il potenziale nella formazione medica.
vademec