Risorse | Instant Book

copertina
Introduzione all’intelligenza artificiale in medicina per il personale sanitario

Un testo introduttivo - chiaro e conciso, consultabile online o scaricabile in formato PDF - sui principali concetti relativi all'Intelligenza Artificiale e alle sue applicazioni alla Salute.

Scarica la versione PDF

Indice

  • Introduzione

    A cura di Alberto E. Tozzi, Francesco Gesualdo, Caterina Rizzo

    Negli ultimi anni le applicazioni di intelligenza artificiale sono diventate comuni nella nostra vita quotidiana. Dal consumo di risorse multimediali, all’e-commerce e alle strategie per intercettare possibili frodi durante l’uso della carta di credito, sono numerosi gli esempi di applicazione di questa tecnologia della quale spesso non ci rendiamo neanche conto. L’interesse per le applicazioni di intelligenza artificiale in medicina è cresciuto in modo esponenziale solo negli ultimi anni, ma il potenziale impatto potrebbe essere dirompente a patto che il personale sanitario usi queste risorse consapevolmente, ne conosca i limiti e ne sfrutti i principali vantaggi.

    Esiste ancora, tuttavia, la tendenza a considerare l’intelligenza artificiale come una tecnologia il cui sviluppo deve essere riservato esclusivamente a personale tecnico, senza il coinvolgimento del personale sanitario e dei pazienti. Sebbene sia improbabile che i professionisti della salute sviluppino autonomamente la componente tecnologica delle applicazioni di intelligenza artificiale, è indispensabile che essi ne guidino la pianificazione fin dalle prime fasi. Inoltre, dato che è verosimile che le applicazioni di intelligenza artificiale saranno rapidamente integrate nelle attività sanitarie di routine, è importante che il personale sanitario ne conosca i meccanismi, i vantaggi e i limiti. Solo attraverso una buona consapevolezza del personale sanitario sarà possibile realizzare l’obiettivo di una intelligenza aumentata nella quale si realizzi una piena integrazione tra le applicazioni tecnologiche, le capacità cliniche e quelle umane ed empatiche per una medicina più avanzata.

    Nel panorama nazionale e internazionale esistono numerose iniziative di formazione sull’intelligenza artificiale in medicina con eccellenti contenuti tecnici dedicati soprattutto ai professionisti della scienza dei dati. Sono rare invece le risorse formative sul tema dedicate al personale sanitario con un intento introduttivo e una visione clinica. Molti organismi internazionali concordano sulla necessità di sviluppare rapidamente contenuti formativi sull’intelligenza artificiale non tecnici per varie discipline, compresa la medicina. Nello stesso tempo è necessario che tali risorse formative non semplifichino eccessivamente questo argomento.

    Questa pubblicazione ha lo scopo di offrire gli elementi essenziali per comprendere il funzionamento delle applicazioni di intelligenza artificiale e di illustrarne le principali applicazioni cliniche attraverso esempi pratici. L’obiettivo è quello di favorire il rapido accesso del personale sanitario ai concetti indispensabili per comprendere il possibile uso dell’Intelligenza Artificiale nelle attività cliniche, oltre che a offrire la possibilità di approfondire i contenuti a diversi livelli di complessità.

    Al termine della lettura sarà possibile immaginare in modo più concreto le possibilità offerte dall’Intelligenza Artificiale per la medicina ed essere pronti per affrontare ulteriori approfondimenti, compresi quelli in ambito specialistico.

  • Cos’è l’Intelligenza Artificiale*

    A cura di Francesco Gesualdo

    L’Intelligenza Artificiale (AI) vede i propri albori alla metà del secolo scorso.

    Nel 1950 Alan Turing, matematico britannico, ipotizza per la prima volta la plausibilità di una macchina pensante, ma la nascita vera e propria dell’AI viene fatta risalire al 1956, al Dartmouth College, nel New Hampshire, dove si riunirono in un convegno i principali esperti di informatica dell’epoca, con lo scopo di creare una macchina in grado di simulare i processi di apprendimento del cervello umano. Fu proprio uno degli organizzatori del congresso, John McCarthy, a creare il termine Intelligenza Artificiale. Le sfide che i ricercatori si trovavano affrontare consistevano sostanzialmente nella creazione di sistemi che potessero risolvere problemi in maniera efficiente, e in grado di apprendere autonomamente.

    Esistono varie definizioni di AI. Quella recentemente adottata dalla Comunità Europea è la seguente:

    Artificial intelligence (AI) refers to systems that display intelligent behaviour by analysing their environment and taking actions – with some degree of autonomy – to achieve specific goals.

    Sempre la Comunità Europea caratterizza ulteriormente la descrizione dell’AI descrivendone altre proprietà:

    “L’intelligenza artificiale è l’abilità di una macchina di mostrare capacità umane quali il ragionamento, l’apprendimento, la pianificazione e la crea­tività. I sistemi di IA sono capaci di adattare il proprio comportamento analizzando gli effetti delle azioni precedenti e lavorando in autonomia”.

    I sistemi di IA possono essere addestrati per eseguire una vasta gamma di compiti e adattarsi a condizioni in continua evoluzione.

    Molte delle esperienze tecnologiche della nostra quotidianità vedono alla propria base un sistema di intelligenza artificiale. Di seguito si riportano  alcuni esempi.

    I filtri spam di molti provider di posta elettronica, in particolare di Gmail, sono basati su sistemi di interpretazione del linguaggio naturale che permettono di intercettare con una buona efficacia eventuali email indesiderate. Un’altra funzione di Gmail, lo Smart Compose, tramite un’analisi del contesto, permette di suggerire parole e frasi mentre l’utente digita l’oggetto e il contenuto dell’email. Anche questa funzione è basata su tecniche avanzate di Natural Language Processing (NLP).

    Anche molte funzioni di Google Maps sono basate su AI. Un modo in cui l’AI viene utilizzata in Google Maps è per migliorare l’accuratezza delle mappe stesse. Per esempio, gli algoritmi di AI possono analizzare immagini satellitari e foto a livello di strada per identificare e etichettare caratteristiche come edifici, strade e punti di riferimento. Ciò può contribuire a garantire che le mappe siano aggiornate e accurate e che riflettano l’ambiente reale. L’AI viene anche utilizzata per migliorare le funzionalità di Google Maps. Per esempio, l’app può utilizzare algoritmi di machine learning per prevedere i modelli di traffico e suggerire i migliori percorsi per gli utenti in base alle condizioni del traffico attuali. Può anche utilizzare l’AI per fornire raccomandazioni personalizzate per luoghi da visitare e cose da fare in base alla posizione dell’utente e alla cronologia delle ricerche.

    Facebook ha una funzione che utilizza l’intelligenza artificiale per rilevare e gestire i post di utenti che potrebbero essere a rischio di suicidio. La funzione si basa su un algoritmo di machine learning che analizza i post degli utenti alla ricerca di parole chiave e frasi che potrebbero indicare un rischio di suicidio. Se il sistema rileva un post che potrebbe essere a rischio, viene inviato un avviso a un team di esperti in salute mentale che valuta il post e, se necessario, contatta l’utente per offrire supporto e consigli.

    Molte piattaforme, tra cui Amazon, Netflix e Spotify, utilizzano sofisticati sistemi di AI, in particolare il Deep Learning, per analizzare il comportamento di ascolto dei suoi utenti e fornire loro raccomandazioni personalizzate di prodotti da acquistare, serie TV, brani e playlist che potrebbero essere di loro interesse. Tramite questi algoritmi, le piattaforme analizzano i dati di acquisto/visione/ascolto degli utenti per comprendere quali elementi (articoli, venditori, generi di film, attori, trame, generi musicali, artisti, album) tendono a essere più apprezzati. Per fornire raccomandazioni personalizzate, vengono usati anche i feedback e le valutazioni degli utenti. Per esempio, su Spotify, se un utente dà una valutazione positiva a un brano o aggiunge un brano a una playlist personale, il sistema potrebbe utilizzare questa informazione per suggerire altri brani simili a utenti con caratteristiche simili.

    Encore, che prima si chiamava Shazam, è un’applicazione che permette di comprendere quale brano musicale si sta ascoltando registrandone pochi secondi. L’applicazione utilizza algoritmi di machine learning che sono stati addestrati su un gran numero di esempi di segnali audio e di metadati associati a questi elementi audio. Grazie a questo addestramento, gli algoritmi di Shazam sono in grado di riconoscere caratteristiche specifiche del segnale audio che sono tipiche di un brano musicale o di un altro elemento audio, e quindi di individuare le corrispondenze con gli elementi presenti nel suo database.

    Anche gli assistenti virtuali degli smartphone, per esempio Siri o Google Assistant, sono basati sull’intelligenza artificiale. Utilizzano tecnologie di elaborazione del linguaggio naturale, machine learning e altre tecniche di intelligenza artificiale per comprendere e rispondere alle richieste degli utenti in modo naturale, utilizzando la voce.

    Le funzioni di riconoscimento facciale degli smartphone utilizzano la fotocamera del dispositivo per acquisire un’immagine o un video della faccia dell’utente e utilizzano tecniche di intelligenza artificiale, in particolare l’apprendimento automatico, per analizzare queste immagini e riconoscere i tratti distintivi della faccia dell’utente. Per fare ciò, le funzioni di riconoscimento facciale utilizzano algoritmi di machine learning che sono stati addestrati su un gran numero di immagini di volti umani e sui metadati associati a queste immagini. Grazie a questo addestramento, gli algoritmi sono in grado di riconoscere tratti distintivi come il contorno del viso, la posizione degli occhi, del naso e della bocca, e le distanze tra questi elementi. In questo modo, le funzioni di riconoscimento facciale possono determinare con una certa precisione se una persona presente nell’immagine è l’utente del dispositivo o un’altra persona. Una volta che la faccia dell’utente viene riconosciuta, il dispositivo può sbloccarsi o eseguire altre azioni specifiche impostate dall’utente.

    Moltissime funzioni della guida degli aerei sono basate sull’intelligenza artificiale, che in questo caso agisce a supporto del lavoro dei piloti. Per esempio, alcuni sistemi di volo utilizzano l’intelligenza artificiale per raccogliere e analizzare dati in tempo reale da diversi sensori a bordo dell’aereo e fornire informazioni utili ai piloti, come avvisi di collisione o di condizioni meteorologiche avverse. Inoltre, alcuni sistemi di navigazione aerea utilizzano l’intelligenza artificiale per ottimizzare i percorsi di volo in base a diverse variabili, come il traffico aereo, le condizioni meteorologiche e i requisiti di carburante.

    Infine, le Tesla che sono dotate di guida autonoma utilizzano diverse tecnologie di intelligenza artificiale per rilevare e interpretare gli elementi del loro ambiente circostante e prendere decisioni su come muoversi. Queste tecnologie includono sensori a ultrasuoni, radar e telecamere a bordo del veicolo, che vengono utilizzati per raccogliere dati sulla strada, gli altri veicoli, i pedoni e altri elementi presenti nel loro ambiente di guida. Inoltre, le Tesla utilizzano algoritmi di machine learning basati sui dati raccolti da questi sensori per identificare modelli e tendenze nel traffico e prendere decisioni sulla base di queste informazioni. Per esempio, gli algoritmi possono utilizzare i dati sulla posizione e la velocità degli altri veicoli per determinare il momento migliore per cambiare corsia o per prendere un’uscita, o per evitare ostacoli imprevisti come pedoni che attraversano la strada.

    Per orientarci meglio nelle prossime lezioni, è bene chiarire qual è la differenza tra i concetti di Intelligenza Artificiale, Machine Learning e Deep 
Learning. Per comprendere come si relazionano tra di loro questi ambiti, è spesso utilizzata la metafora della matrioska.

    • Con il termine Intelligenza Artificiale, ci riferiamo a sistemi in grado di rea­lizzare compiti che normalmente richiedono intelligenza umana.
    • Il Machine Learning è una branca dell’AI, che si riferisce invece a sistemi in grado di imparare senza essere esplicitamente programmati. Il sistema impara dai dati utilizzando tecniche di natura statistica, dalla regressione lineare a tecniche molto più complesse, come, appunto, il Deep Learning. L’apprendimento da parte di algoritmi di Machine Learning può essere supervisionato o non supervisionato. Nell’apprendimento supervisionato viene fornito all’algoritmo un insieme di dati di training, che includono esempi di input e il rispettivo output desiderato (ovvero dati classificati, per esempio immagini di frutta e il nome della frutta rappresentata in ciascuna immagine). L’algoritmo utilizza questi dati per “imparare” ad associare gli input agli output desiderati (ovvero, per esempio, classificare l’immagine di una mela come mela). Una volta che l’algoritmo è stato addestrato, può essere testato su un nuovo insieme di dati, noto come set di test (anche in questo caso si tratta di dati già classificati), per vedere come si comporta su nuovi input. L’apprendimento non supervisionato è una forma di apprendimento automatizzato in cui un algoritmo di machine learning viene addestrato su un insieme di dati senza alcun output etichettato. L’obiettivo è quello di far sì che l’algoritmo scopra automaticamente le strutture e le relazioni presenti nei dati. In genere, l’apprendimento non supervisionato viene utilizzato per esplorare i dati e scoprire eventuali pattern o relazioni nascoste.
    • Il Deep Learning si basa su una struttura logica molto simile a quella del cervello umano: gli artificial neural network. Negli artificial neural network, abbiamo uno strato di input, rappresentato dai dati in entrata, uno strato di output, rappresentato dai dati in uscita, e degli strati intermedi, i cosiddetti strati nascosti. Più strati nascosti ci sono, più profonda (deep) è la rete. Ogni strato della rete neurale profonda può essere considerato come una rappresentazione sempre più complessa e raffinata dei dati, dove ciascuno strato successivo estrae informazioni più dettagliate e specifiche dai dati di ingresso.

    La differenza tra gli algoritmi di Deep Learning e gli algoritmi di Machine Learning tradizionali, è che gli algoritmi di Deep Learning richiedono un intervento umano di gran lunga inferiore. Vediamo l’esempio del riconoscimento di un segnale stradale di stop da parte di una macchina Tesla. Se viene usato un algoritmo tradizionale di Machine Learning, un operatore (verosimilmente un ingegnere informatico) selezionerebbe manualmente le caratteristiche delle immagini, e le classificherebbe, verificherebbe l’output e modificherebbe l’algoritmo di conseguenza. Diversamente, un algoritmo di Deep Learning estrarrebbe automaticamente le caratteristiche del segnale di stop che ne permettono il riconoscimento, e imparerebbe dai propri errori.

    Per funzionare bene, un algoritmo di Deep Learning richiede una grande quantità di dati.

    Alcune funzioni dell’AI, come la computer vision o il Natural Language Processing, di cui parleremo nelle prossime lezioni, possono basarsi su tecniche di Intelligenza Artificiale semplice, o possono utilizzare Machine Learning tradizionale, Deep Learning o più di una tecnica insieme.  

    *Si ringrazia l’algoritmo di Natural Language Processing chatAI per aver collaborato alla stesura del testo colorato.

  • Le funzioni e gli usi dell’Intelligenza Artificiale per la salute

    A cura di Alberto E. Tozzi

    Sebbene molte applicazioni di intelligenza artificiale per la medicina siano ancora potenziali, è ben chiara la prospettiva d’uso di questa tecnologia che a lungo termine potrebbe modificare radicalmente l’approccio alla medicina. Perché questo avvenga, piuttosto che considerare l’intelligenza artificiale come un’alternativa alle evidenze scientifiche basate sugli studi sperimentali, bisognerà considerare l’integrazione tra i due approcci in modo da trarre il massimo vantaggio e un elevato impatto sulla qualità delle cure.

    Uno degli usi più comuni dell’intelligenza artificiale è l’elaborazione di predizioni. Tra i tanti esempi, vi è la possibilità di sviluppare applicazioni che sono in grado di predire in anticipo il volume di pazienti che si presenteranno in Pronto Soccorso, consentendo una programmazione delle attività e del personale necessario. Se questi algoritmi sono continuamente aggiornati e i dati per l’addestramento dell’algoritmo includono anche variabili ambientali che possono condizionare l’afflusso dei pazienti come le condizioni metereologiche o il calendario scolastico, essi possono fornire predizioni molto più accurate dei modelli statistici basati su serie storiche che non possono essere tarati per situazioni emergenti come le epidemie. Algoritmi opportunamente addestrati, inoltre, possono essere utilizzati per predire quale sarà il rischio di sviluppare complicazioni dei pazienti che si presentano in Pronto Soccorso e decidere la loro gestione, incluso l’eventuale ricovero e il reparto di destinazione. Un certo numero di studi si è concentrato sullo sviluppo di strumenti predittivi per la riammissione in ospedale dopo il ricovero. L’interesse è ovviamente per i rischi del paziente, visto che il paziente che rientra in ospedale dopo un ricovero ha un elevato rischio di complicazioni, e per le spese associate dato che le riammissioni vengono penalizzate nella maggior parte dei sistemi sanitari.

    Tuttavia, una delle applicazioni predittive più interessanti, riguarda gli eventi gravi e potenzialmente fatali e la prognosi. L’anticipazione del decorso di una patologia consente di mettere in atto strategie preventive che possono evitare l’occorrenza di questi episodi e di comunicare efficacemente con il paziente. Prendiamo l’esempio dei pazienti in terapia intensiva che possono sviluppare improvvisamente un arresto cardiaco o un’insufficienza renale acuta. Diversi studi hanno ormai dimostrato che è possibile addestrare algoritmi con i dati che vengono continuamente generati dai monitor in terapia intensiva per il monitoraggio dei segni vitali. Paradossalmente questi dati vengono utilizzati in massima parte per consentire agli operatori sanitari di controllare i parametri vitali a colpo d’occhio, ma difficilmente vengono considerati nel loro insieme. Quanto alla predizione della prognosi, questo aspetto è particolarmente rilevante nelle malattie oncologiche nelle quali un’immagine diagnostica può fornire informazioni a questo riguardo a complemento oppure addirittura in luogo di altre procedure invasive.

    Un’applicazione promettente dell’intelligenza artificiale riguarda lo sviluppo di farmaci e vaccini. In questa figura le fasi di identificazione delle componenti candidate nel processo di sviluppo di un vaccino contro SARS-CoV2 sono assistite dall’intelligenza artificiale.
    cap03 fig01
    Lv H, et al. Brief Bioinform 2021;22:bbab320

    Un’ulteriore applicazione degli algoritmi di intelligenza artificiale riguarda l’interpretazione del linguaggio naturale come testo libero oppure del parlato. Siamo più abituati a queste applicazioni che vengono utilizzate anche in campi diversi dalla medicina, ma possiamo utilizzarle per interpretare più precisamente i testi liberi annotati nell’anamnesi dei pazienti. In alcuni studi che hanno retrospettivamente rivisto le anamnesi annotate nelle cartelle cliniche sono state identificate alcune diagnosi, come quelle di asma bronchiale o di allergia, che non erano state altrimenti intercettate.

    La capacità di gestire pattern complessi apre la possibilità che l’intelligenza artificiale sia di supporto alla comprensione dei meccanismi fisiopatologici delle malattie e a una classificazione di esse molto più precisa.

    Se pensiamo alla complessità dei sistemi biologici, la possibilità di identificare e classificare pattern complessi è un importante impulso per una migliore gestione delle malattie complesse. Per esempio, il diabete mellito di tipo 2 può ormai essere classificato in diverse sotto-categorie attraverso l’intelligenza artificiale e godere di una predizione più accurata della prognosi e dell’identificazione di terapie con più elevati margini di efficacia. Si tratta dei paradigmi alla base della medicina di precisione.

    La parte probabilmente più esplorata nelle attività di ricerca e sviluppo è l’applicazione dell’intelligenza artificiale per l’interpretazione delle immagini diagnostiche. Queste ultime possono racchiudere una quantità di informazioni che a occhio nudo non sono riconoscibili e che rappresentano una complessità utile agli scopi più popolari sopra descritti: la diagnosi e la classificazione delle malattie e la predizione della prognosi.

    Uno degli esempi di applicazione degli strumenti di intelligenza artificiale riguarda l’accurata classificazione delle lesioni cutanee che potrebbero essere un melanoma. È noto che migliorando progressivamente l’addestramento di un algoritmo per il riconoscimento di lesioni cutanee maligne è possibile ottenere un’accuratezza nel riconoscimento di melanoma superiore a quella di un esperto dermatologo. La capacità di discriminazione e classificazione delle immagini è alla base di una interessante applicazione recentemente disponibile: Face2Gene.

    L’idea è quella di fornire supporto alla corretta identificazione di malattie sindromiche su base genetica e quindi riconoscere automaticamente il genotipo associato a un fenotipo. È stato sviluppato un algoritmo sulla base della facies di alcune malattie genetiche classificate durante un percorso clinico che comprende l’analisi genetica. Questo algoritmo viene messo a disposizione su un servizio in cloud che può essere interrogato attraverso lo smartphone. Il medico può inviare una fotografia del viso del paziente e ricevere dal sistema la probabilità che il paziente sia affetto da una di diverse malattie genetiche. Uno strumento simile a disposizione dei servizi di medicina e pediatria generale che non hanno l’esperienza e la capacità diagnostica di un Centro di riferimento, ha il potenziale di indirizzare rapidamente il paziente al percorso clinico più appropriato.

    Alcune specialità mediche come la cardiologia offrono numerose possibilità di applicazione dell’intelligenza artificiale. In figura sono evidenziata alcune applicazioni pratiche specialistiche a diversi livelli.
    cap03 fig02
    de Marvao A, et al. Heart 2020;106:399-400

    Un capitolo di questa pubblicazione è dedicato all’interpretazione delle immagini diagnostiche proprio perché si tratta di uno degli ambiti più sviluppati dell’intelligenza artificiale in medicina. Esami come la risonanza magnetica nucleare o la tomografia assiale computerizzata possono essere analizzati finemente estraendo alcune caratteristiche come la densità e la scala di colore, la definizione di particolari aree opportunamente segmentate, la trama e così via, ovvero gli elementi alla base della radiomica. Algoritmi opportunamente addestrati possono consentire di riconoscere una frattura ossea oppure un focolaio polmonare in modo automatico o classificare un tumore e associarlo a una specifica prognosi. Un simile supporto alla diagnosi potrebbe avere un impatto importante sui volumi e i tempi di lavoro del personale impiegato in radiologia.

    Anche i suoni che vengono usati in semeiotica, come pattern complessi, possono beneficiare di algoritmi di intelligenza artificiale. Per esempio, è possibile addestrare algoritmi in grado di riconoscere e classificare i soffi cardiaci. Queste informazioni possono essere integrate ad altri dati, come quelli derivanti dall’elettrocardiogramma, e consentire un approccio alla diagnosi che può essere decentralizzato oppure a supporto della decisione clinica del medico con esperienza insufficiente. Peraltro, l’intelligenza artificiale può essere applicata all’interpretazione dell’elettrocardiogramma. È possibile infatti addestrare algoritmi che diventano preziosi ausili a disposizione del medico e del cardiologo. Oggi esistono numerosi dispositivi che interpretano automaticamente l’elettrocardiogramma e suggeriscono la diagnosi; alcuni di essi sono perfino disponibili come dispositivi commerciali. Lo stesso principio può essere applicato alla classificazione dei suoni registrati durante l’ascoltazione polmonare per un migliore inquadramento della diagnosi. Infine, la capacità di discriminazione degli algoritmi di intelligenza artificiale ha aperto la prospettiva di classificare e riconoscere biomarker vocali. La variazione del timbro vocale viene infatti studiata come un marker di alcune malattie neurologiche.

    Naturalmente questi esempi sono solo in parte rappresentativi delle possibili applicazioni consentite dall’intelligenza artificiale. La sfida che ci attende sarà trovare la formula più adatta perché il medico e il paziente siano supportati da essa per un miglioramento della qualità delle cure.

    Bibliografia utile

  • Quali e quanti dati servono

    A cura di Alberto E. Tozzi

    La disponibilità di dati è naturalmente essenziale per la realizzazione di qualunque strumento di intelligenza artificiale. Rispetto all’analisi statistica tradizionale nella quale i dati vengono raccolti per scopi precisi alla luce di una ipotesi di studio, con l’uso dell’intelligenza artificiale esiste la possibilità di analizzare i cosiddetti real world data. Questi ultimi sono dati routinariamente raccolti per scopi diversi e nella loro complessità possono essere analizzati per far emergere pattern non altrimenti visibili. Nel campo dell’intelligenza artificiale si parla spesso di big data. Le caratteristiche di questi ultimi non riguardano soltanto la quantità dei dati ma anche altre caratteristiche che spesso vengono richiamate con 5 parole chiave:

    • Volume, come abbiamo accennato la quantità dei dati è essenziale per garantire una certa precisione nei risultati elaborati dagli algoritmi di intelligenza artificiale;
    • Velocità, i big data sono dati rapidamente disponibili e possibilmente rappresentano il paziente in tempo reale come accade con i dati di telemonitoraggio;
    • Valore, i dati devono rappresentare una conoscenza utile allo scopo che l’algoritmo da sviluppare si prefigge;
    • Varietà, è essenziale che i big data rappresentino l’eterogeneità dei casi che si verificano nella realtà anche raccogliendo informazioni da diverse sorgenti;
    • Veridicità, ovviamente i dati devono essere fedeli al paziente o alla realtà dei casi che rappresentano.

    Dato che il concetto elementare nello sviluppo di algoritmi è che essi devono essere “allenati” con esempi diversi, l’esame di un caso che non trovi corrispondenza nei dati utilizzati nel training potrà produrre un errore.

    Alla luce di queste osservazioni è chiaro che la sfida principale per garantire un rifornimento adeguato di dati agli algoritmi di intelligenza artificiale risiede nel soddisfare contemporaneamente tutti questi requisiti. Quando questo accade, l’accuratezza degli strumenti di intelligenza artificiale nell’eseguire il compito che è stato loro preposto è massima. Grandi volumi di dati, per giunta in tempo reale e rappresentativi di varie realtà cliniche, indicano la necessità di combinare i dati provenienti da diverse istituzioni e da diverse sorgenti. Viviamo oggi solo l’infanzia dell’applicazione dell’intelligenza artificiale alla medicina e la maggior parte delle pubblicazioni scientifiche disponibili riguarda algoritmi basati su piccole quantità di dati, che spesso fanno riferimento a un solo Centro clinico. In particolare, per le soluzioni di intelligenza artificiale complesse, come quelle per il trattamento delle immagini diagnostiche basate sul Deep Learning, è ormai noto che all’aumentare del volume dei dati disponibili corrisponde una maggiore accuratezza, senza che vi sia un plateau. Idealmente, quindi, un algoritmo di intelligenza artificiale che potesse essere addestrato su tutto l’universo dei dati disponibili avrebbe un’accuratezza massima.

    Numerose sono le dimensioni che corrispondono a svariate sorgenti e modalità di dati che possono concorrere alla creazione di strumenti di intelligenza artificiale per il miglioramento della qualità delle cure.
    cap04 fig01
    Topol EJ. Nat Med 2019;25:44-56

    La necessità di combinare dati che provengono da sorgenti diverse pone numerosi problemi. Le modalità con le quali i dati vengono raccolti per scopi clinici dipendono dagli strumenti utilizzati ma anche dalle circostanze locali. I dati riguardo i pazienti con cardiopatia ischemica raccolti in un ospedale specializzato degli USA e in un ospedale di provincia italiano saranno condizionati dalle procedure vigenti e dagli strumenti elettronici utilizzati per raccogliere i dati stessi. In questo esempio avremo probabilmente anche una selezione di casi con diverso profilo di gravità della quale bisognerà tenere conto.

    Dati di diversa provenienza sullo stesso argomento, inoltre, non avranno necessariamente lo stesso formato, la stessa struttura e le stesse codifiche. La grande discussione sull’interoperabilità dei dati si riferisce proprio alla necessità di trovare una metodologia per combinare dati provenienti da sorgenti diverse.

    L’ulteriore difficoltà nella gestione dei dati per l’intelligenza artificiale riguarda i problemi normativi che pongono grandi limiti alla condivisione come si dirà più in dettaglio allo scopo di preservare la privacy del paziente. Infatti, non è sufficiente anonimizzare i dati raccolti dal paziente per preservare la privacy soprattutto perché l’insieme di dati da esso generato potrebbe essere ricondotta alla sua identità proprio attraverso procedure di intelligenza artificiale. Esiste anche un filone di ricerca che studia la possibilità di utilizzare dati sintetici, dati che hanno le stesse proprietà statistiche di quelli originali, per ovviare ai problemi di conservazione della privacy del paziente.

    Se i dati utilizzati per l’addestramento degli algoritmi devono rappresentare l’eterogeneità dei casi, è facilmente comprensibile che una selezione degli stessi possa provocare pesanti distorsioni nel funzionamento delle applicazioni di intelligenza artificiale. Per esempio, nonostante gli strumenti per la navigazione assistita che utilizziamo quotidianamente siano addestrati su un volume di dati gigantesco, a tutti sarà capitato di seguire indicazioni stradali che si sono poi manifestate errate. Almeno in parte, questo può essere dovuto alla mancanza di dati che riguardano quel particolare percorso.

    Molto spesso, per agevolare lo sviluppo di algoritmi di intelligenza artificiale, si fa uso di database aperti e anonimi che vengono alimentati periodicamente, come accade per le immagini diagnostiche. Questa possibilità risolve i problemi regolatori di condivisione dei dati e di omogeneità, ma difficilmente potrà soddisfare le caratteristiche utili come il volume e la velocità. La sfida per combinare dati da numerosi Centri clinici è quindi uno degli obiettivi principali per garantire lo sviluppo di algoritmi accurati che possano essere utilizzati nella pratica clinica. Anche per questo motivo, il concetto di database centralizzato per gli studi multicentrici tende ad essere superato per lasciare posto ad altre soluzioni tecniche. Una di quelle più interessanti riguarda la realizzazione di algoritmi basati su federated learning. Con questo approccio, gli algoritmi di intelligenza artificiale vengono sviluppati combinando in un modello federato gli algoritmi sviluppati localmente senza condividere i dati originali.

    Nell’immagine è rappresentata l’evoluzione dal modello classico di condivisione dei dati in un database centralizzato, a soluzioni decentralizzate come il federated learning che non prevedono la condivisione dei dati ma dei soli algoritmi sviluppati a livello locale.
    cap04 fig02
    Rajpurkar P. et al. Nat Med 2022;28:31-38

    D’altra parte il concetto di “Varietà” apre a numerose sorgenti informative che normalmente non vengono considerate negli studi clinici e che possono essere invece utilizzate nello sviluppo di applicazioni per l’intelligenza artificiale. Per esempio, i dati generati dagli strumenti di monitoraggio continuo del paziente in terapia intensiva non vengono normalmente analizzati negli studi clinici tradizionali ma vengono usati solo per la gestione al letto del malato. Le informazioni generate dagli smartwatch, pur con una serie di limitazioni, possono dare un importante contributo allo sviluppo di algoritmi alla luce dei dati raccolti su lunghi periodi di tempo. Perfino il ritmo con il quale l’individuo consulta le applicazioni elettroniche sul proprio telefonino può rappresentare un dato utile per sviluppare algoritmi predittivi sullo stato neuropsicologico del paziente.

    Attualmente il dominio dei dati (real world data) per l’intelligenza artificiale si estende dai dati clinici inclusi nella cartella clinica elettronica e nei database per le immagini diagnostiche ai dispositivi indossabili, ai dati raccolti direttamente dal paziente (patient reported outcomes), alle prescrizioni mediche, ai dati amministrativi e perfino a quelli derivati da social networks. 
Il focus sulle scienze -omiche ha permesso di estendere quindi questo concetto ben oltre il genoma per abbracciare altre dimensioni digitali che sono specifiche per il paziente e che possono contribuire alla realizzazione della medicina di precisione.

    Bibliografia utile

  • L’Intelligenza Artificiale per la diagnosi

    A cura di Caterina Rizzo

    Lo sviluppo di Convolutional Neural Networks (CNNs) ha rivoluzionato l’elaborazione delle immagini portando a un grande sviluppo della computer vision con applicazioni in moltissimi ambiti, uno tra tutti quello delle automobili a guida automatica.

    La quantità di dati, in questo caso immagini, necessaria per un efficace addestramento di un algoritmo di intelligenza artificiale basato su CNN, è estremamente elevata. Per fare un esempio, il database open source, ovvero a disposizione gratuitamente per usi non commerciali, ImageNet contiene 14 milioni di immagini classificate in 20.000 categorie. ImageNet viene utilizzato come gold-standard per testare diverse tipologie di CNNs, e con questo obiettivo viene anche organizzata una competizione annuale (ImageNet Large Scale Visual Recognition Challenge) che mostra un rapidissimo incremento dell’accuratezza nella classificazione di immagini parallelamente allo sviluppo delle reti convolutive.

    Il principio di open source, molto diffuso nell’ambito informatico, è più difficilmente applicabile nell’ambito sanitario, a causa di maggiori difficoltà nella condivisione dei dati; esistono però esempi virtuosi come quello di Stanford, che condivide in modalità open source diversi datasets di immagini radiologiche.

    Pur non avendo a disposizione una quantità di dati grande come quella di ImageNet, è possibile addestrare le CNN sfruttando le tecniche di Transfer Learning, che permette di mantenere l’addestramento di alcuni strati della CNN e riaddestrare unicamente alcuni strati e non l’intera rete sul nuovo dataset di immagini, permettendo un risparmio computazionale notevole e riducendo il numero di immagini necessarie per ottenere un addestramento efficace. Per ovviare alle problematiche di condivisione dei dati, particolarmente rilevanti nell’ambito sanitario, il Federated Learning risulta essere estremamente promettente.

    Il Federated Learning permette un addestramento decentralizzato, portando alla creazione di un modello globale condiviso e lasciando i dati dei singoli Centri a livello locale.

    Le immagini prodotte in ambito sanitario sono moltissime, in particolare in alcuni settori come la radiologia, l’anatomia patologica e la dermatologia.
    cap05 fig01

    Casi di studio su intelligenza artificiale e immagini radiologiche, dermatologiche e anatomopatologiche

    Melanoma

    Nel 2017 su Nature è stato pubblicato uno “storico” articolo (Esteva A, 2017) che utilizza un dataset di circa 130.000 immagini per classificare le immagini dermatologiche. La performance del CNN nel classificare il melanoma è stata confrontata con un board di 21 dermatologi e la capacità di riconoscere il melanoma da parte dell’intelligenza artificiale è comparabile a quella del board di dermatologi. L’approccio intelligenza artificiale vs dermatologi è stato superato a fronte di una collaborazione che si dimostra maggiormente efficace.

    Sarebbe necessario utilizzare dataset con dati clinici reali che rispecchino la prevalenza di melanoma nella popolazione per poterlo utilizzare in primary care (Jones OT, 2022).

    Il dataset utilizzato per la classificazione delle immagini dermatologiche non contiene un numero sufficiente di differenti carnagioni (ethnicity bias). Questa tipologia di bias è presente anche in differenti contesti, un esempio è rappresentato da un algoritmo usato negli USA per predire il rischio di commettere crimini che identifica le persone di colore come ad alto rischio. Il problema principale è rappresentato dal fatto che gli eventuali bias nel database usato per l’addestramento vengono propagati e amplificati.

    Nonostante questi bias e altri limiti, esistono diverse startup e società private che operano nell’ambito della diagnostica dei tumori della cute tramite intelligenza artificiale. Molte di queste sono disponibili al diretto utilizzo dei pazienti, nonostante non tutte abbiano completato l’iter di validazione e approvazione da parte degli enti regolatori.

    Radiomica

    La diagnostica per immagini già da tempo utilizza strumenti di Radiomica per l’analisi delle immagini, in passato questi sistemi erano basati principalmente sul Machine Learning, allo stato attuale il Deep Learning, soprattutto tramite CNN, è maggiormente diffuso.

    La Radiomica permette di estrarre informazioni quantitative dalle immagini radiologiche in modo automatizzato e riproducibile (Lambin P, 2012).

    La segmentazione delle immagini, permettendo di identificare delle regioni di interesse nelle immagini radiologiche, potrebbe, se inserita adeguatamente nel workflow del radiologo, accelerare e semplificare l’analisi delle immagini.

    Una delle difficoltà principali che emerge nell’addestramento di modelli di intelligenza artificiale supervisionati è la necessità di annotare in modo accurato le immagini utilizzate (data labeling). Le immagini radiologiche devono essere annotate da personale esperto e gli errori commessi nel labeling dei dati si propagano negli algoritmi di intelligenza artificiale addestrati su quei dati. In altri ambiti, pur essendo necessario un labeling accurato, questo può essere fatto da chiunque ed esistono piattaforme di crowdsourcing, il livello di expertise richiesto è differente in base alla tipologia di immagine.

    La radiologia è un’importante applicazione dell’intelligenza artificiale nella diagnostica. La radiomica, il cui processo è qui rappresentato, permette di estrarre maggiori informazioni quantitative dalle immagini radiologiche.
    cap05 fig02
    www.ieo.it

    Radiogenomica per i tumori cerebrali

    I tumori cerebrali per la loro grande eterogeneità e soprattutto per l’importanza delle caratteristiche molecolari del tumore, determinanti per diagnosi, prognosi e terapia, sono particolarmente adatti come esempio di utilizzo della radiogenomica.

    La radiogenomica permette di associare la mutazione di un gene all’espressione di un differente fenotipo nelle immagini radiologiche. Nel caso specifico grazie alla radiogenomica è possibile identificare il sottotipo molecolare del tumore cerebrale direttamente dalle immagini di RM, senza dover ricorrere alla biopsia (Jena B, 2022).

    Esistono altri esempi di immagini che possono essere usate per addestrare algoritmi di intelligenza artificiale per supportare la diagnosi.

    FACE2GENE utilizza le immagini fotografiche del volto per supportare la diagnosi di sindromi congenite rare.

    Il timore condiviso da alcuni specialisti dell’ambito sanitario è quello che l’intelligenza artificiale possa rimpiazzare le attività del professionista sanitario e l’approccio di alcuni studi scientifici impostati come comparazione delle capacità diagnostiche dell’intelligenza artificiale con quelle dello specialista tende a favorire il diffondersi di questo timore. La direzione attuale è quella di una collaborazione tra intelligenza artificiale e specialista, che si dimostra maggiormente efficace per esempio nella diagnosi dei tumori della cute (Tschandl P, 2020).

    Il ruolo dei professionisti sanitari è fondamentale in ogni fase di sviluppo degli algoritmi di intelligenza artificiale, l’assenza di un domain expert può portare alla creazione di algoritmi con evidenti bias.

    Inoltre, il ruolo del personale sanitario affiancato a figure tecniche è fondamentale per il passaggio dalla ricerca all’integrazione di questi strumenti nella pratica clinica.

    Bibliografia utile

  • L’Intelligenza Artificiale per la prognosi

    A cura di Caterina Rizzo

    La prognosi viene definita come la previsione sul decorso e l’esito di un determinato quadro clinico. I modelli prognostici stimano la probabilità di sviluppare uno specifico outcome di salute in un determinato periodo di tempo.

    Esistono molti modelli prognostici basati su metodi statistici tradizionali, principalmente la regressione lineare. Un esempio è rappresentato dal Charlson Comorbidity Index (CCI), che calcola la mortalità a 10 anni in base alle comorbidità del paziente. Uno score molto utilizzato per la prognosi a lungo termine è il Framingham Risk Score, che predice il rischio individuale di sviluppare una patologia cardiovascolare nei successivi 10 anni in base a:

    • età;
    • sesso;
    • colesterolo totale;
    • HDL;
    • pressione sistolica;
    • trattamento con anti-ipertensivi.

    Questi modelli prognostici non basati su intelligenza artificiale prendono in considerazione un numero limitato di variabili, solitamente si tratta di caratteristiche demografiche e laboratoristiche che sono fattori di rischio noti nella letteratura. Uno dei vantaggi principali dei modelli prognostici tradizionali è l’elevato grado di interpretabilità.

    I modelli basati su intelligenza artificiale apprendono direttamente dai dati forniti durante l’addestramento e possono prendere in considerazione molte variabili differenti, integrando fattori di rischio tradizionali con variabili multimodali. Per esempio le immagini eco-colordoppler della carotide sono state integrate con i fattori di rischio tradizionali per addestrare un modello di intelligenza artificiale in grado di predire il rischio cardiovascolare a 10 anni con un’accuratezza superiore al 90% (Jamthikar A, 2020).

    Uno dei problemi principali dei modelli basati sull’intelligenza artificiale risiede nell’interpretazione del modello stesso, che viene infatti definito Black Box.

    Infatti, un modello prognostico potrebbe classificare un paziente come ad alto rischio cardiovascolare ma senza fornire indicazioni su quale fattore di rischio in particolare porti ad un aumento del rischio. Proprio questo limite di interpretabilità ha portato allo sviluppo di un’area di ricerca dedicata all’explainability dell’intelligenza artificiale.

    Bisogna mantenere uno spirito critico nel valutare l’opportunità di utilizzo dell’intelligenza artificiale nei modelli predittivi ed è opportuno porsi alcune domande in ogni fase di sviluppo a partire dalla fase di ideazione e concettualizzazione, prima ancora di pensare a dati e modelli.

    Ad alcune di queste domande dovrebbe rispondere il professionista sanitario, soprattutto per ciò che riguarda l’introduzione del modello di intelligenza artificiale nel workflow clinico.

    Come valutare criticamente i modelli di previsione basati sull’intelligenza artificiale per la medicina cardiovascolare.
    cap06 fig01
    van Smeden M, et al. Eur Heart J 2022;43:2921-2930

    Restando nel contesto delle patologie croniche, sicuramente l’oncologia merita un breve approfondimento. Nell’ambito oncologico la conoscenza della prognosi riveste un ruolo fondamentale nel guidare le scelte terapeutiche, per questo motivo da tempo vengono utilizzate le curve di sopravvivenza di Kaplan Meier, che tramite un approccio probabilistico stimano l’overall survival confrontando pazienti con caratteristiche o trattamenti differenti.

    Ipotizzando di integrare i dati radiomici e genomici dei pazienti oncologici, è possibile avvicinarsi a un approccio personalizzato, creando dei modelli prognostici basati sulle caratteristiche individuali e non su modelli probabilistici di popolazione.

    Dopo aver esaminato alcuni esempi di utilizzo dell’intelligenza artificiale per stabilire la prognosi delle malattie croniche, ci soffermiamo ad analizzare come possono essere utili in un contesto differente: in acuto e soprattutto nella terapia intensiva. La grande quantità di dati generati in terapia intensiva, molti dei quali provenienti da un monitoraggio real-time dei parametri vitali, non vengono sfruttati al massimo delle loro potenzialità e per questo l’intelligenza artificiale potrebbe giocare un ruolo importante. Nel contesto della terapia intensiva, la prognosi del paziente è estremamente rilevante per guidare le scelte, sia quelle effettuate sul singolo individuo (per es. iniziare una ventilazione invasiva), sia quelle relative alla pianificazione dei processi (per es. scegliere i pazienti da trasferire).

    La sepsi, una disfunzione d’organo causata da una risposta disregolata dell’organismo a un’infezione è una frequente causa di mortalità in terapia intensiva. Esistono sistemi di allerta per la sepsi basati sull’intelligenza artificiale (warning systems) che prendono in considerazione parametri vitali, dati di laboratorio, storia clinica e terapie in atto (dalla cartella clinica elettronica) per generare uno score real-time per il rischio di sepsi. Un recente studio dimostra una riduzione di mortalità tra i pazienti settici segnalati dal warning system (Adams R, 2022).

    Alcuni modelli basati sull’intelligenza artificiale per l’identificazione precoce della sepsi sono ad alto rischio di bias, poiché introducono come variabili del modello parametri inseriti nella definizione stessa di sepsi, come la pressione sistolica che è parte dei criteri qSOFA per la definizione di sepsi (Schinkel M, 2019).

    Questa tipologia di bias difficilmente può essere identificata da un data scientist che non ha conoscenze specifiche del campo di applicazione del modello.

    L’intelligenza artificiale rappresenta un’opportunità per elaborare modelli prognostici accurati che possano supportare la pianificazione dei processi e aumentare l’efficienza. Il processo di revisione dei processi in base alle traiettorie di rischio dei pazienti ha come possibile fattore limitante la scarsa interpretabilità dei modelli di intelligenza artificiale e ciò può rendere maggiormente complessa la comprensione e accettazione da parte del personale sanitario di questa tecnologia.

    L’integrazione da fonti di dati differenti, superando alcuni attuali limiti legati alla scarsa interoperabilità dei sistemi informativi, può portare all’elaborazione di modelli predittivi basati sull’intelligenza artificiale che aprono la strada verso un approccio di medicina personalizzata.

    Bibliografia utile

  • L’Intelligenza Artificiale per interpretare il linguaggio naturale

    A cura di Francesco Gesualdo

    Il Natural Language Processing (NLP) è una branca dell’Intelligenza Artificiale che tratta dell’interazione tra computer e linguaggio umano (sia scritto, sia parlato). In sostanza, l’NLP si occupa in primis di trasformare informazioni non strutturate in informazioni strutturate, e pertanto analizzabili. In altre parole, tramite le tecniche di NLP le parole vengono trasformate in numeri.

    Breve storia dell’NLP

    I primi passi dell’NLP risalgono agli anni ‘50, quando, per la prima volta nella storia, un computer prodotto da IBM (il “computer 701”) tradusse alcune frasi dal russo all’inglese con una velocità impensabile per quei tempi.

    All’epoca, e nei decenni successivi, le applicazioni dell’NLP erano basata su un impianto di regole (“rule-based NLP”) che venivano fornite ai computer e sulla base delle quali i computer analizzavano il linguaggio. L’NLP basato sulle regole iniziò presto a mostrare i propri limiti, in particolare perché le regole riguardavano più la sintassi che la semantica, e per migliorare la semantica era necessario raggiungere un maggiore livello di granularità delle regole stesse. Questo significava aver bisogno di troppe regole, difficilmente maneggiabili, e che esponevano gli algoritmi alla possibilità di interpretazioni multiple della stessa frase.

    Una svolta nella storia dell’NLP avvenne negli anni successivi, tra gli ‘80 e i ‘90, quando si passò dalla rule-based NLP alla statistical NLP: si iniziano ad applicare all’interpretazione del linguaggio naturale metodi statistici e di Machine Learning, basati sul calcolo delle probabilità.

    Un’ulteriore propulsione alle potenzialità dell’NLP si ottenne poi nel 2000, quando venne creato il concetto di word embeddings, una tecnica secondo la quale le parole vengono rappresentate come vettori che ne catturano il significato, che sono distribuiti in uno spazio vettoriale a N dimensioni, e che possono essere tra di loro confrontabili.

    A partire dal 2020, sono stati poi elaborati dei nuovi modelli di NLP, i transformer model, che sono basati su tecniche che mimano il funzionamento dell’attenzione umana, e che permettono performance nettamente superiori rispetto ai modelli precedentemente disponibili.

    NLP ed healthcare

    Come descritto, l’NLP si occupa di trasformare informazioni non strutturate in informazioni strutturate. Per immaginare le potenzialità di questo tipo di analisi applicato all’ambito medico, basta pensare alla grande quantità di informazioni testuali presenti nelle note delle cartelle cliniche o degli Electronic Health Record (EHR) - informazioni ricche di significato ma non categorizzate e pertanto non analizzabili.

    Nella prima fase dunque, i dati di input, testuali e non strutturati, vengono analizzati tramite tecniche di NLP, che danno come output dati strutturati. Tali dati vengono dunque analizzati, per esempio tramite tecniche di Machine Learning, e possono trovare applicazione in diversi ambiti.

    Alleggerimento del lavoro clinico

    • riconoscimento automatico del linguaggio parlato
    • documentazione e navigazione EHR

    Una delle applicazioni più comuni dell’NLP per snellire il carico di lavoro clinico è il riconoscimento del linguaggio parlato e la trasformazione dello stesso in linguaggio scritto, funzione spesso utilizzata in radiologia e in altre specialità in cui accade frequentemente di dover compilare referti testuali.

    L’NLP è stato utilizzato anche per applicazioni destinate alla documentazione e navigazione degli EHR. L’Hospital for Sick Children di Toronto, per esempio, ha creato l’applicativo PhenoPad: si tratta di un’interfaccia di note-taking che permette di creare cartelle cliniche strutturate partendo da diverse fonti di dati, in particolare note libere scritte a mano, registrazioni delle conversazioni con i pazienti, foto e video.

    Un compito caratterizzato da un’elevata alta richiesta di tempo ed energie è la revisione di report di eventi avversi da parte di agenzie regolatorie. Nel 2017 l’FDA, l’agenzia del farmaco statunitense, ha supportato la creazione di MedWatch, un sistema in grado di analizzare automaticamente grandi quantità di report di eventi avversi a farmaci e di assegnare a ciascun report un diverso livello di priorità, in modo da velocizzare e alleggerire il lavoro dei revisori.

    Care delivery

    • classificazione malattie
    • supporto alle decisioni cliniche
    • stratificazione del rischio
    • interventi precoci

    Alcuni progetti di ricerca hanno utilizzato grandi quantità di dati testuali per tentare di classificare condizioni cliniche a partire dalle note cliniche. Per esempio, un gruppo multidisciplinare di ricercatori ha analizzato più di 25.000 cartelle cliniche di pazienti con insufficienza cardiaca. Sono stati automaticamente estratti i sintomi lamentati dai pazienti, trasformati in vettori, e clusterizzati sulla base della loro co-occorrenza. I dati sono stati analizzati ed è stato possibile identificare nei diversi cluster di sintomi delle sindromi già note. Questa operazione di classificazione può essere applicata anche ad altre malattie, e, se si combinano i dati testuali con altri dati clinici, si potrebbero identificare alcune sindromi cliniche ancora non note.

    L’NLP è anche la base metodologica di molti strumenti di Clinical Decision Support. Si tratta di applicativi integrati solitamente nelle cartelle cliniche elettroniche, che permettono al clinico di ricevere alert, reminder e suggerimenti, basati su linee guida e generate a partire dai dati (in particolare dati testuali) presenti nelle note cliniche.

    Tecniche di analisi di linguaggio naturale sono state inoltre utilizzate sia su post di utenti dei social media, sia su cartelle cliniche elettroniche, per intercettare precocemente persone a rischio di sviluppare malattie mentali o di suicidio.

    Ricerca

    • identificazione pazienti a rischio
    • identificazione pazienti che rispondono a definizioni di caso
    • identificazione pazienti eleggibili per clinical trial
    • analisi avanzate
    • reporting automatico

    Combinazioni di stringhe di testo (sia da cartelle cliniche elettroniche sia da post pubblicati sui social media) riferibili a sintomi che rispondono a definizioni di caso vengono utilizzate per la sorveglianza delle malattie trasmissibili. Queste tecniche sono state utilizzate per esempio per la sorveglianza dell’influenza e della febbre Dengue.

    In vari casi l’NLP è stato inoltre utilizzato, nell’ambito della ricerca, per identificare automaticamente pazienti eleggibili per i clinical trial. Alcuni ricercatori cinesi, per esempio, hanno combinato 5 modelli diversi di NLP avanzato ottenendo un’accuratezza dell’85% nell’identificazione di pazienti eleggibili per clinical trial, a partire da un dataset di testi clinici non strutturati.

    Conversational AI

    • Triage
    • Educazione – FAQ
    • Reminder per farmaci/appuntamenti
    • Istruzioni per i pazienti (per esempio diabetici)
    • Monitoraggio

    Gli assistenti vocali dei telefonini sono un esempio alla portata di tutti per capire le potenzialità della conversational AI per la clinica.

    Sono stati creati dei sistemi di triage automatico, basato su chatbot, che permettono di screenare automaticamente i pazienti che hanno bisogno di una visita. Inoltre, la conversational AI trova molteplici applicazioni nella gestione della salute a domicilio da parte del paziente stesso. Per esempio, gli assistenti vocali “addestrati” su temi relativi alla salute possono avere un ruolo educativo, rispondere a domande cliniche, dare al paziente dei reminder per farmaci o appuntamenti, dare istruzioni o suggerimenti basati sulle condizioni cliniche del paziente (per esempio suggerimenti relativi all’alimentazione per i pazienti diabetici) e possono infine integrare sistemi di telemonitoraggio.

    Per essere efficaci, questo tipo di applicativi devono essere basati su un’accurata analisi dei processi e dei percorsi clinici dei pazienti, e devono essere addestrati su una quantità di dati molto elevata.

    NLP e social media

    • syndromic surveillance
    • farmacovigilanza
    • studio posizioni nei confronti dei vaccini

    Come già accennato precedentemente, i post dei social media hanno spesso costituito la base di dati su cui sono stati creati diversi progetti di NLP relativi alla salute.

    Tra gli ambiti più frequentemente esplorati ci sono la sorveglianza sindromica, ovvero l’intercettazione precoce di combinazioni di sintomi corrispondenti a segnali di malattie trasmissibili, e l’intercettazione di stringhe testuali riferibili a eventi avversi da farmaci.

    Tecniche avanzate di NLP sono state utilizzate anche per comprendere la posizione nei confronti dei vaccini degli utenti dei social media.

  • Come funzionano gli LLM

    A cura di Diana Ferro

    Una distinzione importante da comprendere è quella tra IA generativa e non generativa: mentre la prima crea nuove informazioni in base agli input, la seconda si limita a rispondere o categorizzare senza produrre contenuti nuovi. I Large Language Model (LLM), come Chat-GPT, sono modelli generativi pre-addestrati basati sul modello di Intelligenza Artificiale Transformer. Questi modelli sono in grado di comprendere e generare linguaggio naturale, offrendo risposte che sembrano umane. Gli LLM rappresentano solo una piccola parte dell’ampio spettro degli strumenti di intelligenza artificiale, ma hanno guadagnato un enorme popolarità grazie alla loro capacità di generare testi coerenti e apparentemente intelligenti su una vasta gamma di argomenti. La loro versatilità e la facilità d’uso li hanno resi accessibili al grande pubblico, scatenando un’ondata di interesse e applicazioni in diversi settori, dalla scrittura creativa all’assistenza clienti, fino all’analisi dei dati.

    L’architettura “Transformer”, ovvero la struttura organizzativa e funzionale del modello, è un componente fondamentale degli LLM, ed è caratterizzata da tre caratteristiche chiave:

    • Autoattenzione: questo meccanismo permette al modello di assegnare “peso” a diverse parti di una frase, consentendo di cogliere relazioni complesse tra le parole;
    • Elaborazione parallela: a differenza dell’NLP e le reti neurali, i Transformer possono elaborare un’intera sequenza di input simultaneamente, migliorando l’efficienza di calcolo;
    • Apprendimento contestuale: anche grazie all’autoattenzione, i Transformer catturano il contesto in modo più efficace, migliorando la comprensione del linguaggio.

    I Transformer sono diventati l’architettura dominante negli LLM per la loro capacità di gestire sequenze lunghe e catturare dipendenze a lungo termine nel testo, superando così molte limitazioni delle architetture precedenti.

    Gli LLM interpretano il linguaggio attraverso l’uso di token, unità linguistiche fondamentali che scompongono il testo in elementi elaborabili. I token possono essere parole intere, parti di parole o singoli caratteri, a seconda della progettazione del modello.

    Il processo di “tokenizzazione” prende un prompt e divide il testo in queste unità più piccole. Questa suddivisione in token consente agli LLM di analizzare e generare testo con una precisione e una comprensione contestuale notevolmente superiori rispetto all’analisi basata esclusivamente su parole intere. La tokenizzazione permette infatti di catturare sfumature linguistiche e strutture sintattiche che potrebbero sfuggire a un approccio più tradizionale. Gli LLM, sfruttando questa granularità, riescono a cogliere non solo il significato letterale delle parole, ma anche le loro relazioni e il contesto in cui sono inserite.

    Gli LLM rappresentano i token in uno spazio multidimensionale attraverso l’embedding, una sofisticata tecnica di elaborazione del linguaggio naturale che trasforma le parole o i token in vettori numerici. Questo processo di vettorizzazione non è una semplice conversione numerica, ma una rappresentazione matematica complessa che preserva e codifica le proprietà semantiche e sintattiche delle parole. Gli embedding, quindi, consentono agli LLM di catturare e rappresentare matematicamente non solo il significato superficiale delle parole, ma anche le sottili sfumature semantiche e le intricate relazioni contestuali tra di esse.

    Funzionamento degli LLM
    cap08 fig01

    Grazie a questa avanzata tecnica di rappresentazione, il modello matematico probabilistico alla base degli LLM è in grado di elaborare e comprendere il linguaggio con una profondità e una sottigliezza senza precedenti. Il modello può cogliere sfumature linguistiche, ambiguità semantiche e contesti complessi che non sarebbero evidenti considerando le parole come entità separate e isolate. Questa capacità di analisi contestuale permette agli LLM di interpretare il linguaggio in modo più simile a quello umano, considerando non solo il significato letterale delle parole, ma anche il loro ruolo all’interno di frasi, paragrafi e discorsi più ampi.

    Esempi di come gli LLM possano applicare le loro capacità linguistiche avanzate in contesti specifici, come quello medico, dimostrando la loro versatilità e potenziale utilità in vari campi professionali.
    Operazione linguistica Esempio in ambito sanitario
    Riconoscimento di similitudini semantiche Identificare somiglianze tra sintomi di malattie rare e comuni per assistere nella diagnosi differenziale
    Analisi approfondita del contesto Distinguere tra “pressione” come sintomo fisico o stress psicologico in una cartella clinica
    Generazione di testo coerente e contestuale Creare materiale informativo per pazienti adattando linguaggio e tono alla loro comprensione e alla gravità della condizione
    Comprensione e produzione di linguaggio figurato Utilizzare metafore come “il cuore è una pompa” per spiegare concetti medici complessi
    Identificazione di strutture narrative e argomentative Analizzare cartelle cliniche o articoli di ricerca, identificando argomentazioni e conclusioni principali

    Questa capacità di elaborazione linguistica avanzata rende gli LLM strumenti potenti non solo per la generazione di testo, ma anche per compiti di analisi linguistica complessa, traduzione, riassunto e persino per forme basilari di ragionamento basato sul linguaggio. Tuttavia, è importante notare che, nonostante queste capacità impressionanti, gli LLM operano sulla base di correlazioni statistiche apprese dai dati di addestramento e non possiedono una vera comprensione o coscienza nel senso umano del termine.

    Il successo degli LLM dipende da un vasto training, o addestramento, su grandi dataset.

    Questo processo avviene in fase iniziale ed è fondamentale nella creazione di un LLM. Come menzionato nel testo, questo processo implica l’esposizione del modello a vasti dataset, che vengono creati attraverso un meccanismo di raccolta online, durante il quale il modello apprende a prevedere la parola successiva in una frase, ottimizzando il contesto e la coerenza delle risposte generate. Questo addestramento di base è ciò che conferisce al modello le sue capacità linguistiche generali.

    l tuning, o messa a punto, è un processo di perfezionamento che segue l’addestramento iniziale di un LLM. Si distingue dal training per diverse caratteristiche chiave. Mentre il training costruisce le competenze linguistiche di base, il tuning affina le capacità del modello per applicazioni specifiche. Il tuning utilizza dataset mirati e di dimensioni ridotte, in contrasto con i vasti dataset generalisti del training. Inoltre, è un processo più rapido e meno dispendioso in termini di risorse computazionali. Il tuning può essere ripetuto più volte per adattare il modello a diverse esigenze, mentre il training di base avviene una sola volta. Per esempio, in ambito sanitario, un LLM potrebbe essere inizialmente addestrato su un vasto corpus di testi medici generali. Successivamente, attraverso il tuning, potrebbe essere specializzato per comprendere e generare testi relativi a una specifica area medica, come l’oncologia. Questo processo di tuning potrebbe includere l’esposizione del modello a cartelle cliniche oncologiche, articoli di ricerca sul cancro e linee guida di trattamento specifiche, permettendo al modello di affinare la sua comprensione e generazione di testo in questo campo specialistico.

    Un altro esempio concreto potrebbe essere nell’ambito della telemedicina. Un LLM potrebbe essere inizialmente addestrato su un ampio dataset di interazioni medico-paziente. Successivamente, attraverso il tuning, potrebbe essere specializzato per assistere nelle consultazioni online. Questo processo potrebbe includere l’esposizione del modello a trascrizioni di videoconsultazioni, protocolli di triage a distanza e linee guida per la comunicazione efficace in ambiente virtuale. Ciò permetterebbe al modello di supportare i medici nel fornire consulenze accurate ed empatiche anche a distanza, migliorando l’accesso alle cure per i pazienti in aree remote o con mobilità ridotta.

    Entrambi i processi possono introdurre bias nel modello, ma il tuning, se eseguito correttamente, offre l’opportunità di mitigare alcuni pregiudizi acquisiti durante il training iniziale. Sebbene gli LLM siano strumenti estremamente potenti e versatili, è infatti essenziale riconoscere che presentano alcuni limiti significativi che richiedono attenzione. Una delle principali sfide è la loro tendenza a generare risposte potenzialmente errate o fuorvianti su argomenti che non sono stati inclusi nel loro set di dati di addestramento. Questo problema si manifesta particolarmente quando si tratta di informazioni recenti o altamente specializzate che non erano disponibili al momento della creazione del modello. Inoltre, gli LLM possono involontariamente riprodurre e amplificare pregiudizi e stereotipi presenti nei dati di addestramento, riflettendo così bias sociali, culturali o storici nelle loro risposte. Questa problematica solleva importanti questioni etiche riguardanti l’equità e la rappresentazione nelle applicazioni di intelligenza artificiale.

    Le implicazioni di questi limiti sono particolarmente rilevanti in ambiti critici come quello medico, dove l’accuratezza e l’affidabilità delle informazioni sono di fondamentale importanza. In un contesto sanitario, una risposta errata o un consiglio inappropriato generato da un LLM potrebbe potenzialmente portare a decisioni cliniche sbagliate, con conseguenze serie per la salute dei pazienti. Inoltre, la presenza di bias nei dati potrebbe portare a disparità nelle cure o a raccomandazioni non equamente applicabili a tutti i gruppi demografici. Queste considerazioni sottolineano l’importanza cruciale di implementare rigorosi sistemi di verifica e controllo umano quando si utilizzano LLM in ambiti sensibili come la medicina, garantendo che l’intelligenza artificiale sia un supporto e non un sostituto del giudizio clinico esperto.

    Gli LLM rappresentano un notevole passo avanti nella comprensione del linguaggio, ma vanno utilizzati con consapevolezza dei loro limiti. Sono strumenti potenti, ma richiedono supervisione umana per evitare rischi legati al bias e alla mancanza di aggiornamento del contesto.

    Bibliografia utile

  • Applicazioni degli LLM per la clinica e la ricerca scientifica

    A cura di Diana Ferro

    La rivoluzione dell’intelligenza artificiale ha portato alla creazione di modelli di linguaggio di grandi dimensioni (LLM), che stanno trasformando il panorama della medicina e della ricerca scientifica. Come abbiamo visto nel capitolo precedente, modelli di linguaggio basati su “Transformer”, permettono infatti un’elaborazione avanzata del linguaggio naturale e offrono una vasta gamma di applicazioni che spaziano dalla diagnosi clinica al supporto decisionale e alla scoperta scientifica. Questo capitolo esplora le principali applicazioni degli LLM nella clinica e nella ricerca, oltre a discutere le sfide e i rischi associati a queste tecnologie.

    Gli LLM possono essere classificati in tre categorie principali, ciascuna definita dal tipo di output generato in risposta a un prompt testuale: Text-to-text (T2T), Text-to-image (T2I) e Text-to-video (T2V). Questa categorizzazione riflette la versatilità e la potenza degli LLM nel produrre contenuti diversificati a partire dal semplice testo (prompt).

    I modelli Text-to-text, come GPT-3 e BERT, generano testo in risposta a input testuali, rendendoli ideali per compiti come la traduzione, il riassunto e la risposta a domande. I modelli Text-to-image, come DALL-E e Midjourney, creano immagini basate su descrizioni testuali, aprendo nuove possibilità nella visualizzazione di concetti astratti. Infine, i modelli Text-to-video, come Sora e Gen-3-Alpha, promettono di trasformare descrizioni testuali in sequenze video, potenzialmente rivoluzionando campi come l’educazione medica e la simulazione di procedure cliniche.

    La loro applicazione ha dimostrato di portare benefici significativi e tangibili in molteplici ambiti della quotidianità del personale sanitario, trasformando radicalmente le pratiche consolidate e aprendo nuove frontiere di innovazione dei percorsi di cura. Dall’accelerazione della ricerca scientifica, con l’analisi rapida di vasti dataset e la generazione di ipotesi innovative, alla rivoluzione nella cura del paziente, dove gli LLM supportano diagnosi più accurate e trattamenti personalizzati. Questi strumenti stanno ridefinendo il modo in cui i professionisti della salute approcciano le sfide quotidiane, offrendo un supporto prezioso in ogni fase del percorso clinico e di ricerca. Nell’ambito della ricerca, gli LLM accelerano il processo di scoperta analizzando rapidamente enormi dataset e fornendo ai ricercatori intuizioni preliminari su ipotesi scientifiche. Per esempio, gli LLM possono automatizzare la revisione della letteratura e suggerire nuovi possibili collegamenti tra dati esistenti, facilitando la costruzione di nuove linee di indagine. Questo è particolarmente utile per i medici-ricercatori, che beneficiano di un supporto nella generazione di ipotesi e nella convalida delle loro teorie.

    Gli LLM hanno la capacità di processare e analizzare volumi significativi di dati clinici e testuali, offrendo un supporto prezioso ai medici nelle fasi cruciali di diagnosi e trattamento dei pazienti. Questa capacità di elaborazione massiva consente di estrarre informazioni rilevanti da una vasta gamma di fonti, inclusi cartelle cliniche elettroniche, risultati di laboratorio, e letteratura medica aggiornata. In particolare, l’utilizzo di modelli di tipo Text-to-Text si rivela estremamente efficace nel facilitare la costruzione di cronologie cliniche esaustive e dettagliate. Questi modelli possono automatizzare il processo di sintesi delle informazioni provenienti da diverse fonti, riducendo significativamente il rischio di errori od omissioni nella raccolta e nell’interpretazione dei dati clinici cruciali.

    Utilizzo degli LLM Text-to-Text in clinica: esempi di applicazione pratica
    cap09 fig01

    Inoltre, l’integrazione degli LLM con sistemi avanzati di supporto decisionale rappresenta un passo significativo verso il miglioramento dell’accuratezza diagnostica. Questi sistemi integrati possono analizzare rapidamente una vasta gamma di parametri clinici, confrontarli con database medici aggiornati e fornire suggerimenti diagnostici basati su evidenze. Ciò non solo accelera il processo decisionale, ma offre anche ai medici una prospettiva più ampia e dettagliata, consentendo loro di prendere decisioni cliniche personalizzate. L’utilizzo di questi strumenti avanzati può inoltre potenzialmente ridurre il tasso di errori diagnostici, ottimizzare i percorsi di cura e, in ultima analisi, migliorare significativamente gli outcome clinici per i pazienti.

    Gli LLM avanzati che supportano la generazione di contenuti Text-to-Image e Text-to-Video, hanno aperto nuove possibilità rivoluzionarie che si estendono ben oltre la semplice visualizzazione, offrendo un potente strumento per l’ottimizzazione dei percorsi di cura e la formazione medica avanzata. Nell’ambito della diagnostica per immagini, gli LLM stanno dimostrando un potenziale straordinario. Possono analizzare e interpretare immagini mediche complesse come radiografie, risonanze magnetiche e tomografie computerizzate, fornendo un supporto prezioso ai radiologi. Questi modelli possono rilevare anomalie sottili, classificare lesioni e persino suggerire diagnosi differenziali basate su pattern visivi complessi. L’integrazione di LLM nella diagnostica per immagini non solo accelera il processo di refertazione, ma può anche migliorare la precisione diagnostica, riducendo il rischio di errori umani.

    Inoltre, gli LLM possono generare immagini sintetiche per scopi di formazione e ricerca. Per esempio, possono creare dataset di immagini mediche artificiali ma realistiche, utili per l’addestramento di altri algoritmi di intelligenza artificiale o per la simulazione di casi rari, offrendo agli specializzandi opportunità uniche di apprendimento. Nel contesto della pianificazione terapeutica, i clinici possono utilizzare questi strumenti per visualizzare scenari di cura complessi e ottimizzare i percorsi terapeutici personalizzati. Basandosi su simulazioni dettagliate e proiezioni di outcome clinici, i medici possono esplorare virtualmente diverse opzioni di trattamento, valutarne i potenziali rischi e benefici, e selezionare l’approccio più promettente per ogni singolo paziente. Questo livello di personalizzazione e previsione può portare a decisioni cliniche più informate e potenzialmente a migliori risultati per i pazienti. Infine, la capacità di generare contenuti video basati su input testuali apre nuove frontiere nell’educazione medica e nella comunicazione con i pazienti. Procedure complesse possono essere visualizzate e spiegate in modo chiaro e accessibile, migliorando la comprensione e il coinvolgimento del paziente nel processo di cura.

    La costruzione accurata del prompt è un elemento cruciale per sfruttare appieno il potenziale degli LLM in ambito clinico e di ricerca. Un prompt ben formulato può guidare l’LLM verso risposte più precise, pertinenti e utili, migliorando significativamente l’efficacia dell’interazione uomo-macchina. In ambito medico, la costruzione accurata del prompt è particolarmente critica e comprende diversi fasi, come illustrato in tabella.

    Guida pratica per costruire prompt efficaci, facilitando l’interazione con gli LLM in ambito clinico e di ricerca.
    Fase Descrizione Esempio
    Specificità e Chiarezza Formulare domande o istruzioni chiare e specifiche “Elenca i sintomi più comuni dell’influenza stagionale negli adulti”
    Contestualizzazione Fornire un contesto adeguato per una migliore comprensione “Considerando un paziente maschio di 45 anni con diabete di tipo 2, quali sono i fattori di rischio cardiovascolare da monitorare?”
    Strutturazione Organizzare il prompt in modo logico “Analizza i seguenti aspetti della terapia anticoagulante:
    1. Principali farmaci utilizzati
    2. Indicazioni terapeutiche
    3. Effetti collaterali comuni”
    Definizione dei Limiti Specificare limitazioni o parametri operativi “Fornisci una panoramica delle tecniche chirurgiche mini-invasive per l’appendicectomia in non più di 200 parole”
    Iterazione e Raffinamento Essere pronti a riformulare o affinare il prompt in base alle risposte iniziali Prompt iniziale: “Descrivi i trattamenti per l’ipertensione” Raffinamento: “Concentrati sui trattamenti non farmacologici per l’ipertensione lieve negli adulti sotto i 50 anni”

    Quando si utilizza un LLM per assistere nella diagnosi, un prompt ben strutturato per esempio dovrebbe sempre includere dettagli rilevanti sulla storia clinica del paziente, i sintomi presentati e i risultati degli esami diagnostici. Questo approccio mirato può portare a suggerimenti diagnostici più accurati e pertinenti. Inoltre, nella ricerca scientifica, prompt ben costruiti possono guidare l’LLM nell’analisi di vasti dataset, nell’identificazione di pattern nascosti o nella generazione di ipotesi innovative. La capacità di formulare prompt efficaci diventa quindi una competenza essenziale per i professionisti sanitari e i ricercatori che intendono sfruttare al meglio queste tecnologie avanzate.

    In definitiva, la maestria nella costruzione dei prompt non solo migliora l’efficacia degli LLM, ma contribuisce anche a mitigare potenziali rischi legati a interpretazioni errate o risposte fuorvianti. Questa competenza rappresenta un elemento fondamentale per integrare con successo gli LLM nei flussi di lavoro clinici e di ricerca, massimizzando i benefici di queste potenti tecnologie AI, considerando anche che ci sono alcune importanti sfide da considerare. L’utilizzo degli LLM in ambito medico infatti, presenta sfide significative che richiedono estrema attenzione. Innanzitutto, i pregiudizi presenti nei dati di addestramento possono portare a diagnosi o trattamenti inadeguati. Inoltre, l’impiego degli LLM in contesti clinici necessita di rigorose misure per la protezione dei dati personali, assicurando il rispetto delle normative sulla privacy e la sicurezza delle informazioni sensibili dei pazienti.

    Gli LLM offrono una prospettiva innovativa per migliorare l’efficienza e l’efficacia clinica, oltre ad accelerare il progresso nella ricerca scientifica. Tuttavia, il loro impiego comporta responsabilità significative, richiedendo un’attenta valutazione dei rischi e l’implementazione di misure di sicurezza rigorose. Riconoscere i limiti di questi modelli, incluso apprendere le modalità con cui interagire con il modello in tempo reale, è cruciale per garantire che la loro applicazione rispetti gli standard etici e di sicurezza in ambito sanitario.

    Bibliografia utile

  • I digital twin

    A cura di Alberto E. Tozzi

    Il concetto di digital twin viene spesso ricondotto a una strategia sviluppata negli anni ‘60 dalla NASA per far fronte ai problemi tecnici che potevano insorgere durante le missioni spaziali. Infatti, durante la missione della navicella Apollo 13, l’esplosione di un serbatoio di ossigeno che danneggiò il propulsore principale, fu gestito con un modello del tutto simile della navicella, costantemente aggiornato con i dati provenienti dallo spazio, ma che si trovava nei laboratori della NASA sulla terra.

    Un digital twin può essere immaginato quindi come una replica digitale di un oggetto che riproduce anche i cambiamenti che avvengono nell’oggetto reale. Il trasferimento di questo concetto alla medicina ha delle implicazioni molto interessanti e un potenziale molto importante. La possibilità di riprodurre sistemi complessi come quelli biologici in una replica digitale, infatti, è stata accelerata dalla progressiva disponibilità di dati da questi sistemi e dalla disponibilità di algoritmi di intelligenza artificiale che ne possono riprodurre i meccanismi.

    Oggi, un digital twin di un sistema biologico può raggiungere livelli di fedeltà rispetto all’organismo originale, tali da consentire di condurre veri esperimenti senza coinvolgere organismi viventi. Si può intuire come, in presenza di dati sufficienti, sia possibile riprodurre in un modello digitale una cellula, una via metabolica, un organo o l’integrazione di diverse funzioni di un essere umano. Inoltre, a questi sistemi complessi, possono essere aggiunti modelli digitali dell’ambiente esterno in modo da creare un’integrazione fedele e costantemente aggiornata del reale organismo vivente.

    In queste condizioni, un digital twin può essere utilizzato per simulare condizioni estremamente diverse tra loro. Concettualmente è possibile creare diversi digital twin dello stesso individuo, ognuno dei quali sia virtualmente sottoposto a determinate condizioni in modo da realizzare delle vere e proprie simulazioni. L’implicazione per la medicina è molto importante dato che le simulazioni che si possono realizzare in queste condizioni sono virtualmente infinite e non comportano un coinvolgimento diretto del paziente, escludendo completamente i problemi di sicurezza.

    Esempio di sviluppo di un digital twin del sistema immunitario. In una prima fase vengono integrati dati di varie dimensioni fisiologiche su più scale. Questi dati vengono poi integrati con quelli che derivano dai singoli pazienti in modo da personalizzarli. Questi oggetti possono essere utilizzati per il supporto alla decisione clinica.

    cap10 fig01
    Mod. da Laubenbacher R, et al. PJ Digit Med 2022;5:64.

    Immaginiamo di avere a disposizione una terapia per una determinata malattia che alla luce delle evidenze scientifiche abbia un’efficacia del 70%. Questo implica che una parte dei pazienti che riceveranno tale terapia non risponderanno ad essa. In presenza di dati individuali utili a determinare la risposta alla terapia, prima di iniziare la somministrazione, si potrebbero realizzare esperimenti virtuali su digital twin sia per predire il successo o il fallimento della terapia, ma anche per variare nel modello digitale alcuni parametri che ci possono aiutare a determinare in che condizioni la terapia sarà efficace. Questa possibilità rappresenta un forte impulso verso la medicina di precisione.

    Per la chirurgia, la possibilità di eseguire simulazioni su modelli virtuali rappresenta un ulteriore esempio di applicazione dei digital twin che possono integrare i dati clinici del paziente a quelli anatomici e talvolta a quelli meccanici, come accade nella cardiochirurgia.

    La possibilità di sviluppare copie digitali di organismi viventi dipende strettamente dalla disponibilità di dati che consentano di realizzare modelli fedeli alla realtà. L’assistenza clinica del paziente genera grandi quantità di dati che possono essere utili per creare tali modelli. Abbiamo ormai a disposizione numerosi dispositivi indossabili o impiantabili che possono generare grandi quantità di dati di continuo, da quelli che vengono utilizzati in terapia intensiva agli smartwatch e altri. La qualità dei dati a disposizione è ovviamente cruciale perché la copia digitale, il digital twin, riproduca perfettamente i meccanismi biologici degli organismi viventi. Questo aspetto è molto delicato e riguarda lo sviluppo dei digital twin come le altre applicazioni di intelligenza artificiale per la medicina.

    Possono anche essere sviluppati digital twin che rappresentano processi. Per esempio, si possono rappresentare digitalmente i percorsi clinici dei pazienti in ospedale per ottenere modelli sui quali eseguire simulazioni. Queste ultime potranno essere utili a stabilire quale sequenza di operazioni risulterebbe più efficiente, possibilmente abbreviando la durata della degenza.

    In sintesi, in questa applicazione si sfrutta la capacità dell’intelligenza artificiale di riconoscere pattern complessi e di riprodurli in un modello. La rappresentazione di sistemi complessi come quelli biologici, infatti, sarebbe molto difficile da elaborare con i tradizionali sistemi statistici. Soprattutto, questi ultimi sarebbero insensibili alle variazioni del sistema in quanto tipicamente rappresentano sistemi statici. Il grande vantaggio dell’applicazione dell’intelligenza artificiale ai sistemi biologici è la capacità di sviluppare sistemi dinamici, sensibili alle variazioni di vari parametri. Questo aspetto è alla base della creazione di digital twin che possono essere utilizzati nelle simulazioni. Infine, possono essere creati digital twin di popolazioni. Questa possibilità è interessante per la sanità pubblica e per la predizione di scenari che, per esempio, riguardano le malattie trasmissibili.

    I digital twin così elaborati, costituiscono una risorsa che promette di essere di grande impatto per la medicina. Infatti questi modelli possono trarre vantaggio dalla disponibilità di big data nella loro interezza e complessità, sono adattabili in modo dinamico come abbiamo già detto, e possono perfino essere utilizzati per riprodurre una copia virtuale in termini fisici, sia come un modello digitale o addirittura con una stampa 3D.

    Abbiamo bisogno di studiare a fondo l’impatto dei digital twin e stabilirne in modo preciso l’uso che ne potremo fare e i limiti che ne possono derivare. Se l’affidabilità dei sistemi basati su digital twin fosse confermata, potremmo accelerare le sperimentazioni cliniche e possibilmente moltiplicare le opportunità che vengono offerte dalla ricerca e dalle sperimentazioni cliniche riducendone anche i costi. Simili sistemi avrebbero anche un effetto sull’autonomia del paziente che in alcune circostanze potrebbe prendere decisioni di salute sulla base dei dati prodotti dal proprio gemello virtuale.

    Bilancio tra i potenziali vantaggi nell’uso dei digital twin e i potenziali problemi dal punto di vista etico e relazionale

    cap10 fig02
    Mod. da Popa EO, et al. Life Sci Soc Policy 2021;17:6.

    In sintesi i digital twin rappresentano una prospettiva molto importante per il processo di decisione clinica, sia essa del medico che del paziente. Esiste perfino la prospettiva di creare popolazioni di digital twin che potrebbero assistere la sanità pubblica nelle decisioni su strategie preventive di popolazione.

    Le applicazioni dei digital twin che attualmente sono allo studio riguardano diverse specialità mediche. La cardiologia e la cardiochirurgia sono sicuramente discipline nelle quali si può contare sia su grandi quantità di dati generati di continuo e nelle quali situazioni complesse potrebbero essere assistite da una simulazione su una copia digitale. In aritmologia, per esempio, è comune avere a disposizione registrazioni continue del tracciato ECG che combinate ad altre informazioni cliniche possono essere utili nella predizione della prognosi oppure del successo di una terapia. Come abbiamo già accennato, in chirurgia già si fa largo uso di simulazioni digitali virtuali basate sulle immagini diagnostiche. Questo approccio può avere grande valore nella chirurgia complessa nella quale è richiesta grande precisione come in neurochirurgia. L’aspetto probabilmente più interessante, tuttavia, riguarda la realizzazione di studi clinici sperimentali utilizzando gemelli virtuali di pazienti, accelerando un processo che attualmente dipende esclusivamente dalle sperimentazioni cliniche in vivo.

    Bibliografia utile

  • Le implicazioni etiche dell’intelligenza artificiale in medicina

    A cura di Alberto E. Tozzi

    Le particolari caratteristiche dell’intelligenza artificiale applicata alla medicina hanno diverse implicazioni etiche e regolatorie. Un aspetto rilevante riguarda la possibilità di spiegare il meccanismo attraverso il quale le applicazioni di intelligenza artificiale raggiungono il proprio risultato. Si parla spesso di black box proprio per indicare il fatto che l’elaborazione degli algoritmi di intelligenza artificiale può essere del tutto inspiegabile con un meccanismo razionale. La difficoltà nello spiegarne i meccanismi può essere legata sia al segreto industriale, alla capacità tecnica di chi cerca di interpretare questi strumenti e all’esperienza nella programmazione, e infine al meccanismo intrinseco degli algoritmi a partire dai dati di origine che è difficilmente spiegabile.

    Tutto questo può causare un problema importante nella comunicazione con il paziente quando gli strumenti di intelligenza artificiale rappresentino veri e propri interventi nei processi di diagnosi o di cura. Come per qualsiasi intervento sanitario, infatti, sarà necessario spiegare al paziente i dettagli operativi nel consenso informato. Lo sviluppo di quest’ultimo in queste condizioni può rappresentare una seria difficoltà considerato il fatto che la performance degli algoritmi di intelligenza artificiale può essere migliore di quella umana. Nel caso in cui le conclusioni delle applicazioni di intelligenza artificiale divergano da quelle del medico, potrebbe non essere semplice trovare una spiegazione comprensibile con conseguenze nel rapporto con il paziente e di responsabilità legale. Per ovviare a queste difficoltà sono in corso di sviluppo politiche che garantiscano la trasparenza dei dati utilizzati per lo sviluppo degli algoritmi e una serie di misure che prevengano le principali distorsioni e garantiscano accuratezza e riproducibilità degli algoritmi di intelligenza artificiale.

    Il processo di consenso informato riguarda anche lo sviluppo di algoritmi per scopi di salute, quando questi utilizzano dati di pazienti. Come in ogni progetto di ricerca o sviluppo, il paziente potrebbe a un determinato momento decidere di recedere dalla sua partecipazione allo sviluppo degli algoritmi ed esercitare il diritto all’oblio. Non è ancora chiarito come si possa procedere in questo caso visto che la sottrazione di casi da un algoritmo già sviluppato dovrebbe essere compiuta sviluppando nuovamente l’algoritmo con un dataset opportunamente modificato.

    Il problema della comunicazione con il paziente, inoltre, risente della scarsa conoscenza del personale sanitario degli elementi tecnici alla base del funzionamento degli algoritmi di intelligenza artificiale, osservazione che suggerisce la necessità di una formazione specifica per questa categoria.

    Cinque elementi che i clinici dovrebbero conoscere riguardo le applicazioni di intelligenza artificiale in terapia intensiva. Queste osservazioni sono largamente applicabili ad altre specialità mediche

    cap11 fig01
    Mod. da Shaw JA, et al. Intensive Care Med 2021;47:157­159.

    Lo scenario futuro ci propone percorsi di cura nei quali gli strumenti di intelligenza artificiale guideranno le decisioni cliniche. Ma come qualunque strumento digitale, esiste la possibilità che l’intelligenza artificiale commetta errori. In questo caso a chi potrà essere attribuita la responsabilità? Si potrebbe discutere che questa compete allo sviluppatore dell’algoritmo, ma la decisione clinica è del medico. Sebbene i modelli proposti siano orientati a una distribuzione delle responsabilità su tutti i responsabili del percorso di sviluppo e applicazione, questo interrogativo non ha ancora trovato una soluzione univoca e sarà uno dei temi da definire nel prossimo futuro.

    Si potrebbe ipotizzare che l’applicazione dell’intelligenza artificiale alla medicina modifichi i comportamenti del personale sanitario che sempre di più si affiderebbe all’automatismo degli algoritmi piuttosto che alla propria esperienza clinica. Un simile scenario esporrebbe a una progressiva diminuzione della capacità specialistica del personale sanitario. In realtà la visione è quella di una combinazione dell’intelligenza artificiale con l’intelligenza umana e sarà necessario garantire che le abilità mediche tipiche dell’uomo rimangano conservate attraverso attività formative. Pertiene all’etica la necessità che gli algoritmi di intelligenza artificiale non provochino discriminazioni. Questa possibilità ha almeno due letture. Da un lato, gli strumenti digitali, inclusi quelli di intelligenza artificiale, non sono ancora accessibili a tutti. Sarà quindi importante agire per ridurre il digital divide non solo da parte del paziente ma anche delle istituzioni che della tecnologia ne dovranno fare uno strumento di lavoro. La seconda lettura riguarda i dati con i quali gli algoritmi di intelligenza artificiale vengono addestrati. Una distorsione o una scarsa rappresentazione di alcuni segmenti della popolazione dei pazienti potrà causare uno svantaggio per alcuni.

    Potenziali discriminazioni derivanti da applicazioni per l’intelligenza artificiale in tempi di COVID-19. Se non pianificate accuratamente le attività di sviluppo di tali applicazioni possono esacerbare condizioni di iniquità esistenti o introdurne di nuove

    cap11 fig02
    Mod. da Leslie D, et al. BMJ 2021;372:n304.

    Un ulteriore aspetto delle applicazioni di intelligenza artificiale riguarda i dati che vengono utilizzati per svilupparle. La necessità di combinare grandi quantità di dati nelle dimensioni più diverse, da quelle genetiche e genomiche a quelle cliniche e oltre, pone un rischio per la compromissione della privacy e dell’identità del paziente. Nonostante i dati utilizzati per le attività di ricerca e sviluppo debbano essere anonimizzati, alcune caratteristiche cliniche peculiari (basti pensare alle malattie rare) o la stessa applicazione di strumenti di intelligenza artificiale potrebbero consentire di reidentificare il paziente. Il trasferimento di dati sensibili come quelli clinici, inoltre, rappresenta un rischio anche per usi o attacchi malevoli. La regolamentazione attuale, la General Data Protection Regulation (GDPR), pone una serie di limitazioni alla condivisione dei dati proprio per contrastare i rischi. L’equivalente della GDPR negli USA (HIPAA), sebbene meno restrittiva, impone comunque una serie di misure precauzionali per preservare la privacy del paziente. Tuttavia, le limitazioni derivanti dall’applicazione di queste regole non facilitano la condivisione dei dati che è cruciale per lo sviluppo di algoritmi che producano risultati accurati. Per favorire la condivisione dei dati, anche a scopo di ricerca attraverso applicazioni di intelligenza artificiale, la Comunità Europea ha condotto una serie di iniziative tra le quali la definizione dell’AI act, un documento che stabilisce regole per lo sviluppo di strumenti di intelligenza artificiale secondo una scala di rischio, e la creazione dell’European Health Data Space, uno spazio dove i singoli Paesi Europei potranno scambiare dati tra loro interoperabili e in sicurezza. Infine, la sempre maggiore automazione dei processi attraverso l’intelligenza artificiale modificherà il rapporto tra medico e paziente? Tutte le agenzie e gli organismi internazionali sono d’accordo nel ritenere che il modello sarà quello dell’integrazione tra IA e capacità umana e che tale integrazione dovrebbe risultare in maggiore tempo che il personale sanitario potrà dedicare al rapporto con il paziente.

    Alla luce di queste criticità diverse agenzie internazionali hanno sottolineato la necessità di attenersi ad alcuni principi fondamentali nello sviluppo e nell’applicazione delle applicazioni di intelligenza artificiale che riguardano l’aderenza ai principi etici per evitare discriminazioni e distorsioni, l’inclusività per garantire l’accesso a chiunque, l’aggiornamento continuo per garantire la massima efficacia, la garanzia della privacy del paziente e la trasparenza nel processo di sviluppo e applicazione. Oltre ai principi fondamentali del rispetto dell’autonomia umana, della sicurezza del paziente e di equità, le agenzie internazionali convergono verso un lavoro multidisciplinare che consenta anche di stabilire chiaramente le responsabilità di ciascuno dei protagonisti nello sviluppo di questa tecnologia.

    Bibliografia utile

  • Evidence based medicine e intelligenza artificiale

    A cura di Alberto E. Tozzi

    Negli ultimi decenni la medicina basata sulle evidenze ci ha permesso di migliorare e standardizzare la qualità delle cure. Con questo approccio abbiamo evitato di eseguire interventi sanitari inutili o addirittura dannosi, e abbiamo selezionato gli interventi più efficaci e sicuri. Alla base della medicina basata sulle prove ci sono le scienze epidemiologiche e biostatistiche. L’applicazione di queste ultime permette di disegnare studi sperimentali che hanno lo scopo di testare un’ipotesi e di valutare quanto i risultati ottenuti da questi studi possano essere dovuti al caso.

    L’emergenza e l’accessibilità delle tecnologie di intelligenza artificiale hanno rinforzato l’aspettativa che ci potesse essere a disposizione un nuovo approccio utile soprattutto per le malattie complesse e le comorbidità, dove la medicina basata sulle evidenze ha avuto risultati ancora limitati. Dalla contrapposizione di Evidence Based Medicine (EBM) e intelligenza artificiale, tuttavia, possono nascere alcuni equivoci. Fermo restando che la valutazione di impatto delle applicazioni di intelligenza artificiale pertiene comunque al dominio degli studi osservazionali o interventistici con le metodologie tradizionali, è utile mettere in evidenza alcune peculiarità dei metodi utilizzati per lo sviluppo di applicazioni di intelligenza artificiale. Mentre negli studi clinici tradizionali si persegue generalmente l’obiettivo di dimostrare un’ipotesi (per esempio: la scarsa attività fisica è un fattore causale dell’obesità), negli studi che valutano applicazioni di intelligenza artificiale si cerca di scoprire associazioni di dati senza alcuna ipotesi predeterminata. Per questo stesso motivo, negli studi che sviluppano intelligenza artificiale generalmente non vengono preparati protocolli. La capacità di elaborazione degli algoritmi di intelligenza artificiale, inoltre, necessita di grandi basi di dati (i big data) e abbondanza di variabili per essere espressa, al contrario degli studi clinici tradizionali nei quali basi di dati con un numero di osservazioni e un numero di variabili limitato possono essere sufficienti. In tema di dati, gli algoritmi di intelligenza artificiale possono essere addestrati e interrogati con dati multimodali, compresi quelli non strutturati. Questi ultimi possono includere immagini, video, audio, sequenza genomiche e altri dati che non possono essere ricondotti a una struttura predeterminata. Vale la pena fare una breve riflessione: i dati che rappresentano un processo clinico, biologico o la patologia di un paziente portano con sé non solo la misura che vogliamo ottenere (per esempio il valore della glicemia, oppure l’immagine di un’articolazione alla risonanza magnetica), ma sono influenzate anche da altre circostanze come il dispositivo che l’ha generato, l’operatore che ha compiuto la misura, le modalità con le quali la struttura sanitaria seleziona i pazienti ed altro. Per questo motivo è essenziale che i dati che riforniscono gli algoritmi per l’addestramento, perché gli stessi algoritmi siano applicabili, siano costantemente aggiornati in modo da riflettere i cambiamenti che intervengono (per esempio la modifica dei dispositivi per la diagnostica per immagini che vengono costantemente ammodernati).

    Se si può dire che l’intelligenza artificiale è derivata almeno in origine dalla statistica tradizionale, con l’intelligenza artificiale non è possibile riconoscere associazioni causali, al contrario degli studi clinici tradizionali dove la statistica ci aiuta proprio a stabilire tale relazione.

    Differenze tra EBM e intelligenza artificiale
    EBM Intelligenza artificiale
    Si basa sulla conferma di ipotesi possibilmente attraverso studi sperimentali Si basa sulla scoperta di associazioni basate sui dati
    Basata su protocolli di studio strutturati Nessun protocollo standard
    Esamina le relazioni tra un numero limitato di variabili generalmente omogenee Esamina le relazioni tra molte variabili, che possono non essere specificate e possono essere disomogenee
    Usa dati strutturati, su un numero limitato di soggetti, da un piccolo numero di sorgenti informative Usa dati spesso non strutturati di grandi dimensioni e da diverse sorgenti informative
    Favorisce studi prospettici che possono essere appropriatamente pianificati Usa generalmente dati retrospettivi già raccolti per altri usi
    Usa modelli biostatistici per confermare o rigettare l’ipotesi di studio Usa algoritmi iterativi spesso non lineari basati sul riconoscimento di pattern

    Anche le applicazioni di intelligenza artificiale, così come gli studi clinici ed epidemiologici, possono soffrire di distorsioni che influenzano i risultati e l’interpretazione degli stessi. È evidente che le applicazioni di intelligenza artificiale richiedono grandi quantità per l’addestramento degli algoritmi. Trattandosi di una tecnologia che deve la propria precisione agli “esempi” che vengono utilizzati durante l’addestramento, in mancanza di dati che consentano una rappresentazione adeguata dei pazienti ai quali l’algoritmo verrà applicato, questo potrà generare risultati errati. Il tema della quantità, qualità e rappresentatività dei dati per l’addestramento degli algoritmi è centrale nella valutazione delle potenziali distorsioni dell’intelligenza artificiale.

    Da questo punto di vista la possibilità di mettere a disposizione dati relativi a una certa categoria di pazienti per lo sviluppo di algoritmi rappresenta un fattore cruciale perché questi siano generalizzabili. Nell’Unione Europea vigono numerose regole che hanno lo scopo di proteggere la privacy degli individui ma che rendono complesso l’accesso ai dati utili per lo sviluppo di algoritmi. Al contrario, in altre aree geografiche l’accesso ai dati dei pazienti è molto più liberale. La maggior parte degli algoritmi disponibili per l’attività clinica è in effetti addestrata con dati che derivano principalmente da USA e Cina. Dato che i dati di pazienti di altre zone geografiche sono scarsamente rappresentati, l’uso di questi prodotti potrebbe non essere immediatamente generalizzabile. Il tema della distorsione degli algoritmi dovuto alla selezione dei dati è parallelo agli studi clinici tradizionali. La selezione di osservazioni in pazienti di razza bianca, per esempio, potrà compromettere la performance dell’algoritmo in altre etnie.

    Altre fonti di distorsione riguardano lo scarso numero di osservazioni impiegate per lo sviluppo degli algoritmi, i dati mancanti per alcune variabili e gli errori di classificazione. Tutti questi concetti sono comuni alle fonti di distorsione che comunemente vengono considerati negli studi epidemiologici. È importante quindi valutare la qualità dei dati utilizzati per comprenderne la potenziale applicazione in setting diversi da quelli utilizzati durante lo sviluppo.

    Il tema della valutazione delle applicazioni di intelligenza artificiale è essenziale perché siano resi disponibili strumenti che ci aiutino a valutare l’impatto e le eventuali distorsioni dei prodotti già disponibili. Esistono già strumenti per la valutazione degli studi sperimentali che includono strumenti di intelligenza artificiale, come CONSORT-AI. L’uso di questi strumenti sarà a supporto della generazione di evidenze con gli stessi presupposti che utilizziamo per altri interventi sanitari.

    Un possibile schema di integrazione tra intelligenza artificiale e medicina basata sulle evidenze. Nello schema viene sottolineato il ruolo dell’intelligenza artificiale nella generazione di nuove ipotesi, basate sullo studio dei dati già disponibili, che possono orientare studi clinici specifici

    cap12 fig01
    Mod. da Abujaber AA, Intelligence Based Medicine, 2022

    Oltre alla valutazione di interventi che consistono nell’applicazione di algoritmi, è evidente che gli strumenti basati sull’intelligenza artificiale daranno una spinta importante anche agli studi che valutano altri interventi sanitari. Da questo punto di vista, la possibilità di eseguire analisi esplorative sui cosiddetti Real World Data, consentirà di preparare e selezionare più accuratamente gli studi clinici tradizionali e aumentare la loro probabilità di successo.

    Bibliografia utile

  • Come leggere criticamente gli articoli scientifici che parlano di intelligenza artificiale

    A cura di Alberto E. Tozzi

    Ogni professionista della salute dovrebbe aggiornarsi attraverso la lettura delle numerose pubblicazioni che possono influenzare la propria pratica clinica. Si tratta di un esercizio difficile e talvolta lungo da svolgere in contrasto con la cronica mancanza di tempo a disposizione. La lettura critica rappresenta uno strumento essenziale per valutare l’applicabilità e i limiti di quello che gli autori delle pubblicazioni scientifiche riportano. Questa pratica, storicamente coltivata dagli epidemiologi e da coloro che si sono dedicati alla medicina basata sulle evidenze, può sembrare complessa per gli articoli scientifici tradizionali e dovrà arricchirsi delle modalità specifiche che riguardano gli studi che parlano di intelligenza artificiale.

    Proprio per questa ragione, sono emersi diversi strumenti che dovrebbero aiutare il reporting degli autori che descrivono questi strumenti e che possono aiutare il lettore nella valutazione oggettiva degli articoli in questo settore.

    In questo momento di grande interesse per l’intelligenza artificiale sembra impossibile non utilizzare questa tecnica in qualsiasi lavoro scientifico. Tuttavia, non è scontato che l’intelligenza artificiale produca risultati migliori delle comuni tecniche statistiche. È noto che numerosi lavori che mettono a confronto l’analisi dei dati con statistiche tradizionali in confronto a intelligenza artificiale dimostrano che le prime possono dare risultati più accurati e che quindi il vantaggio nell’uso delle tecniche di intelligenza artificiale non è scontato. In particolare quando i dati da trattare sono strutturati e il numero di osservazioni non è elevato, le tecniche statistiche tradizionali possono essere sufficienti.

    Come ricordato più volte, il lettore dovrebbe chiedersi se i dati utilizzati per l’addestramento e il test dell’algoritmo tema della pubblicazione siano rappresentativi della popolazione alla quale l’algoritmo dovrà essere applicato. In mancanza di questo requisito, non sarà facile generalizzare i risultati ottenuti.

    Per valutare la performance degli algoritmi, gli autori in genere utilizzano una validazione interna su dati della stessa popolazione di origine dei dati usati per l’addestramento. Dovrebbe sempre essere eseguita anche una validazione esterna, cioè su dati di popolazioni appartenenti ad altri setting, proprio per verificare la generalizzabilità dell’algoritmo. Per gli algoritmi nei quali la validazione esterna non è stata eseguita sarà difficile esprimere una valutazione della performance. D’altra parte minori sono le differenze di performance tra validazione interna ed esterna, migliore sarà la generalizzabilità.

    Come accade per gli studi clinici tradizionali, anche per gli studi che descrivono lo sviluppo di un algoritmo dovrebbe essere giustificata un’appropriata dimensione del campione studiato. In buona parte dei casi per la letteratura medica corrente, purtroppo, il numero di osservazioni utilizzato per lo sviluppo degli algoritmi è limitato e/o insufficiente. Una dimensione del campione insufficiente si rifletterà sulla performance dell’algoritmo. Abbiamo accennato al fatto che i dati utilizzati per generare un modello sono influenzati da altre circostanze che possono variare nel tempo. Per questo motivo il lettore interessato a una applicazione pratica dell’algoritmo tema del lavoro scientifico dovrebbe verificare che gli autori dichiarino che l’algoritmo sviluppato sarà aggiornato nel tempo.

    Insieme a questi semplici suggerimenti non possiamo trascurare una possibile frontiera con la quale ci confronteremo a breve. La capacità analitica e di sintesi degli algoritmi generativi (come quelli che alimentano chatGPT) è tale da rendere questi modelli interessanti per la revisione e addirittura per l’estrazione dei dati degli articoli scientifici. Oggi è già possibile istruire uno di questi algoritmi per eseguire in modo automatico una valutazione strutturata degli articoli scientifici e generare un report. Non ci sono ancora prove sufficienti che un simile approccio garantisca la stessa precisione rispetto a un approccio manuale, anche se cominciano a emergere prodotti commerciali che dichiarano di avere questa capacità. Un approccio di questo genere potrebbe essere utile almeno in fase di screening delle pubblicazioni scientifiche. La frontiera più interessante riguarda la possibilità di costruire strumenti che ci aiuteranno nello sviluppo delle revisioni sistematiche e le renderanno automaticamente aggiornabili.

    Sintesi degli elementi da considerare nella valutazione critica degli articoli che riguardano applicazioni cliniche di intelligenza artificiale
    Quesito Note
    Le tecniche di intelligenza artificiale sono strettamente necessarie per risolvere il problema clinico? La soluzione di intelligenza artificiale dovrebbe comportare chiari vantaggi rispetto alle tecniche di predizione tradizionali
    Come si inserisce l’applicazione di intelligenza artificiale nel percorso clinico del paziente? Gli autori dovrebbero illustrare l’integrazione nel percorso clinico e prevenire eventuali barriere di implementazione
    I dati per la predizione rappresentano la popolazione nella quale il modello deve essere applicato e l’uso previsto, sia per l’addestramento che la validazione? La rappresentatività dei dati è essenziale per garantire la trasferibilità dei modelli e la loro generalizzabilità
    Il processo di classificazione dell’outcome è riproducibile, replicabile e indipendente? La definizione dell’outcome dovrebbe essere standard e univoca e non influenzabile da altri fattori
    La dimensione del campione è sufficiente per il processo di sviluppo e test del modello predittivo? La dimensione del campione dovrebbe essere calcolata secondo le specifiche raccomandazioni per garantire una accuratezza e riproducibilità sufficienti
    Esistono misure ulteriori della performance del modello oltre le tradizionali statistiche? Le statistiche di performance del modello dovrebbero essere estese oltre le misure su singoli outcome e descritte in categorie multiple
    Vengono considerate eventuali distorsioni ed eventuali conseguenti discriminazioni nell’applicazione del modello? Le sorgenti di distorsione dovrebbero essere considerate e discusse
    Il modello è aperto per aggiornamenti futuri? La disponibilità ad aggiornamenti è necessaria per evitare distorsioni derivanti dalla modifica delle circostanze nelle quali è stato sviluppato il modello
    L’interpretazione dei risultati è coerente con essi? È necessario valutare con attenzione interpretazioni non supportate dai risultati
    Mod. da van Smeden M, et al. Eur Heart J 2022;43:2921­2930.

    Bibliografia utile

  • Conclusioni

    A cura di Alberto E. Tozzi

    A conclusione di questa lettura, una serie di concetti che riguardano le applicazioni di intelligenza artificiale per la salute saranno più chiari e permetteranno di affrontare in modo meno passivo le innovazioni che, ci aspettiamo, saranno incalzanti. Per brevità non è stato possibile affrontare tutti i possibili temi rilevanti e illustrare tutti gli esempi applicativi.

    Non c’è dubbio che sarà possibile sfruttare questa tecnologia per la diagnosi e il trattamento di numerose malattie, per ingaggiare attivamente il paziente, e per ottimizzare alcuni flussi operativi. Non possiamo dimenticare il contributo che l’intelligenza artificiale potrebbe dare alla ricerca scientifica, in particolare per lo sviluppo concreto della medicina di precisione. Questi cambiamenti dovrebbero portarci a una riduzione degli errori, a un più rapido raggiungimento della diagnosi e a un migliore adattamento dei trattamenti alle caratteristiche del paziente.

    Tra le strade già tracciate nello sviluppo delle applicazioni di intelligenza artificiale spicca quella dell’interpretazione delle immagini in campo oncologico dove questa tecnologia è di supporto alla diagnosi e alla classificazione dei tumori. Perfino l’Organizzazione Mondiale della Sanità ha attinto alle tecnologie basate sull’intelligenza artificiale per migliorare l’accesso alle raccomandazioni per uno stile di vita sano in diverse lingue. Stiamo inoltre assistendo alla proliferazione di strumenti di grande potenza per il trattamento di informazioni complesse, per la generazione di testi, e per la generazione e rielaborazione di immagini. Ma non possiamo trascurare l’impatto nei processi amministrativi sanitari dove è possibile risparmiare notevoli risorse attraverso l’applicazione di questa tecnologia.

    Le potenziali applicazioni avranno un impatto rilevante se ci dedicheremo alla cura dei dati che riforniranno l’intelligenza artificiale. Per quanto possa sembrare un concetto antiquato, l’approccio alla qualità e alla rappresentatività dei dati è un elemento fondamentale perché lo sviluppo dell’intelligenza artificiale conduca alla realizzazione di strumenti precisi e privi di distorsioni.

    Allo stesso tempo saremo chiamati a fare una serie di considerazioni etiche del tutto nuove che dovranno guidare le scelte migliori per la salute del paziente in presenza di strumenti che potrebbero essere complessi da giustificare e da spiegare. Attraverso un’attenta valutazione e applicazione dei principi di base dell’etica potremo realizzare quella che viene definita intelligenza aumentata, una piena integrazione tra tecnologia e ragione umana per il bene del paziente.

    È estremamente probabile che in breve tempo i professionisti della salute avranno bisogno di impadronirsi di questa tecnologia e di diventare protagonisti nel suo uso e nel suo sviluppo. È quindi fondamentale che le competenze professionali vengano estese perché questo avvenga il più presto possibile e in modo da garantire il forte progresso che ci aspettiamo nelle cure mediche.

    Bibliografia utile