I ricercatori hanno trovato un modo per l'apprendimento automatico senza dati di immagini reali

Prima che un modello di apprendimento automatico possa eseguire un'attività, come il rilevamento del cancro nelle immagini mediche, il modello deve essere addestrato. Quando si addestrano i modelli di classificazione delle immagini, al modello vengono solitamente mostrate milioni di immagini di esempio raccolte in un ampio set di dati. Ma è possibile utilizzare i dati delle immagini reali in questo modo?

Apprendimento automatico con immagini generate sinteticamente: I ricercatori americani hanno trovato un modo per addestrare adeguatamente i modelli di classificazione delle immagini anche in assenza di dati reali. (Immagine simbolo; Unsplash.com)

In medicina si utilizzano sempre più spesso sistemi informatici che interpretano le immagini grazie all'intelligenza artificiale e supportano i medici nella diagnosi. Questo funziona confrontando le nuove immagini con i dati delle immagini esistenti. Nel processo, la macchina "impara" continuamente. Tuttavia, l'apprendimento automatico basato sulle immagini presenta delle insidie.

Il copyright può impedire l'apprendimento automatico

In effetti, l'utilizzo di dati di immagini reali per l'addestramento dell'apprendimento automatico può sollevare problemi pratici ed etici: Le immagini potrebbero violare le leggi sul copyright, violare la privacy delle persone o essere orientate verso un particolare gruppo razziale o etnico. Per evitare queste insidie, i ricercatori possono utilizzare programmi di generazione di immagini per creare dati sintetici per l'addestramento dei modelli. Tuttavia, queste tecniche hanno un'applicazione limitata perché spesso è necessaria la conoscenza di esperti per progettare un programma di generazione di immagini in grado di produrre dati di addestramento efficaci.

I ricercatori del MIT, del MIT-IBM Watson AI Lab e di altri istituti hanno quindi adottato un approccio diverso. Invece di sviluppare programmi di generazione di immagini personalizzati per un compito di formazione specifico, hanno raccolto un set di dati di 21.000 programmi disponibili pubblicamente su Internet. Poi hanno usato questa grande collezione di programmi di generazione di immagini di base per addestrare un modello di computer vision. Questi programmi generano diverse immagini che rappresentano semplici colori e texture. I ricercatori non hanno modificato o cambiato i programmi, che consistono ciascuno di poche righe di codice.

Programmi di immagine come valido sostituto

I modelli addestrati con questo ampio set di programmi hanno classificato le immagini con maggiore precisione rispetto ad altri modelli addestrati sinteticamente. Sebbene i loro modelli abbiano ottenuto risultati peggiori rispetto a quelli addestrati con dati reali, i ricercatori hanno dimostrato che l'aumento del numero di programmi di immagini nel set di dati ha aumentato le prestazioni del modello e ha mostrato un percorso verso una maggiore precisione.

"È emerso che utilizzare molti programmi non curati è in realtà meglio che utilizzare un piccolo insieme di programmi che devono essere manipolati dagli esseri umani. I dati sono importanti, ma abbiamo dimostrato che si può arrivare molto lontano anche senza dati reali", afferma Manel Baradad, dottorando in Ingegneria elettrica e informatica (EECS) presso il Computer Science and Artificial Intelligence Laboratory (CSAIL) e autore principale del documento di ricerca che descrive la tecnica.

Ripensare la formazione preliminare

I modelli di apprendimento automatico sono solitamente pre-addestrati, cioè vengono prima addestrati su un set di dati per sviluppare parametri che possono essere utilizzati per affrontare un altro compito. Un modello per la classificazione di immagini a raggi X potrebbe essere addestrato su un enorme set di immagini generate sinteticamente prima di essere addestrato su un set molto più piccolo di immagini a raggi X reali per il suo compito effettivo.

In precedenza i ricercatori avevano dimostrato di poter utilizzare una serie di programmi di generazione di immagini per creare dati sintetici per il pre-addestramento del modello, ma i programmi dovevano essere attentamente progettati in modo che le immagini sintetiche corrispondessero a determinate proprietà delle immagini reali. Ciò ha reso difficile l'estensione della tecnica. Il nuovo lavoro ha invece utilizzato un enorme set di programmi di generazione di immagini non curate.

Apprendimento automatico con immagini generate "artificialmente

I ricercatori hanno iniziato compilando una raccolta di 21.000 programmi di generazione di immagini da Internet. Tutti i programmi sono scritti in un linguaggio di programmazione semplice e sono costituiti da pochi frammenti di codice, in modo da generare rapidamente le immagini. "Questi programmi sono stati progettati da sviluppatori di tutto il mondo per creare immagini che presentano alcune delle proprietà che ci interessano. Creano immagini che sembrano quasi arte astratta", spiega Baradad.

Questi semplici programmi possono essere eseguiti così rapidamente che i ricercatori non hanno avuto bisogno di creare immagini in anticipo per addestrare il modello. I ricercatori hanno scoperto che potevano generare immagini e addestrare il modello allo stesso tempo, semplificando il processo. Hanno utilizzato il loro enorme set di dati di programmi di generazione di immagini per preaddestrare i modelli di computer vision per compiti di classificazione delle immagini sia supervisionati che non supervisionati. Nell'apprendimento supervisionato, i dati delle immagini sono etichettati, mentre nell'apprendimento non supervisionato il modello impara a categorizzare le immagini senza etichette.

Migliorare la precisione

Confrontando i loro modelli pre-addestrati con i moderni modelli di computer vision pre-addestrati con dati sintetici, i loro modelli sono risultati più accurati, cioè hanno assegnato più spesso le immagini alle categorie corrette. L'accuratezza era ancora inferiore a quella dei modelli addestrati con dati reali, ma la loro tecnica ha ridotto del 38% il divario di prestazioni tra i modelli addestrati con dati reali e quelli addestrati con dati sintetici.

"È importante notare che le prestazioni si scalano in modo logaritmico per il numero di programmi raccolti. Non raggiungiamo la saturazione delle prestazioni, il che significa che se raccogliessimo più programmi, il modello avrebbe prestazioni ancora migliori. Quindi c'è un modo per estendere il nostro approccio", dice Manel.

I ricercatori hanno inoltre utilizzato ogni programma di generazione di immagini per il pre-training, al fine di determinare i fattori che contribuiscono all'accuratezza del modello. Hanno scoperto che il modello funzionava meglio quando un programma produceva una maggiore varietà di immagini. Hanno anche scoperto che le immagini colorate con scene che riempiono l'intera tela migliorano maggiormente le prestazioni del modello.

Avendo dimostrato il successo di questo approccio di pre-addestramento, i ricercatori vogliono ora estendere la loro tecnica ad altri tipi di dati, come quelli multimodali contenenti testo e immagini. Si vuole inoltre continuare a cercare modi per migliorare le prestazioni di classificazione delle immagini.

Fonte: Techexplore.com

(Visitato 91 volte, 1 visita oggi)

Altri articoli sull'argomento