Des chercheurs trouvent un moyen d'apprentissage automatique sans données d'images réelles
Avant qu'un modèle d'apprentissage automatique puisse accomplir une tâche, par exemple la détection du cancer dans les images médicales, le modèle doit être entraîné. Lors de l'entraînement des modèles de classification d'images, on montre généralement au modèle des millions d'exemples d'images qui ont été collectées dans un vaste ensemble de données. Mais peut-on utiliser des données d'images réelles ?
En médecine, on utilise de plus en plus souvent des systèmes informatiques qui interprètent les images au moyen de l'intelligence artificielle et aident les médecins à poser des diagnostics. Cela fonctionne en comparant les nouvelles images avec les données d'images déjà existantes. La machine "apprend" en permanence. L'apprentissage automatique à partir d'images a toutefois ses inconvénients.
Les droits d'auteur peuvent empêcher l'apprentissage automatique
L'utilisation de données d'images réelles pour l'entraînement à l'apprentissage automatique peut en effet poser des problèmes pratiques et éthiques : Les images pourraient enfreindre les lois sur les droits d'auteur, violer la vie privée des personnes ou être biaisées envers une race ou un groupe ethnique particulier. Pour éviter ces écueils, les chercheurs peuvent utiliser des programmes de génération d'images pour créer des données synthétiques destinées à l'apprentissage du modèle. Cependant, ces techniques ont une application limitée, car des connaissances expertes sont souvent nécessaires pour concevoir un programme de génération d'images capable de générer des données de formation efficaces.
Des chercheurs du MIT, du MIT-IBM Watson AI Lab et d'autres instituts ont donc choisi une autre approche. Au lieu de développer des programmes de génération d'images sur mesure pour une tâche d'entraînement spécifique, ils ont rassemblé un ensemble de données de 21.000 programmes disponibles publiquement sur Internet. Ils ont ensuite utilisé cette grande collection de programmes de création d'images de base pour entraîner un modèle de vision par ordinateur. Ces programmes génèrent différentes images représentant des couleurs et des textures simples. Les chercheurs n'ont ni édité ni modifié les programmes, qui ne comportent chacun que quelques lignes de code.
Des programmes d'images comme substitut valable
Les modèles qu'ils ont entraînés avec ce grand ensemble de données de programmes ont classé les images plus précisément que d'autres modèles entraînés de manière synthétique. Et bien que leurs modèles aient obtenu de moins bons résultats que ceux qui s'entraînaient avec des données réelles, les chercheurs ont montré que l'augmentation du nombre de programmes d'images dans le jeu de données augmentait également la performance du modèle et indiquait une voie vers une plus grande précision.
"Il s'avère que l'utilisation de nombreux programmes non curatés est en fait préférable à l'utilisation d'un petit ensemble de programmes qui doivent être manipulés par des humains. Les données sont importantes, mais nous avons montré qu'il est possible d'aller assez loin sans données réelles", explique Manel Baradad, doctorant en génie électrique et informatique (EECS) au Computer Science and Artificial Intelligence Laboratory (CSAIL) et auteur principal du travail de recherche décrivant cette technique.
Repenser le pré-entraînement
Les modèles d'apprentissage automatique sont généralement pré-entraînés, c'est-à-dire qu'ils sont d'abord entraînés sur un ensemble de données afin de développer des paramètres qui peuvent être utilisés pour effectuer une autre tâche. Un modèle de classification des radiographies pourrait être entraîné sur un énorme ensemble de données d'images générées synthétiquement avant d'être entraîné pour sa tâche réelle sur un ensemble de données beaucoup plus petit de radiographies réelles.
Les chercheurs avaient précédemment montré qu'ils pouvaient utiliser une poignée de programmes de génération d'images pour créer des données synthétiques pour le pré-apprentissage du modèle, mais les programmes devaient être soigneusement conçus pour que les images synthétiques correspondent à certaines caractéristiques des images réelles. Cela rendait difficile l'extension de la technique. Au lieu de cela, le nouveau travail a utilisé un énorme ensemble de données de programmes de création d'images non curatées.
Apprentissage automatique avec des images "artificiellement" générées
Les chercheurs ont commencé par rassembler une collection de 21.000 programmes de création d'images sur Internet. Tous les programmes sont écrits dans un langage de programmation simple et ne comportent que quelques bribes de code, ce qui leur permet de générer rapidement des images. "Ces programmes ont été conçus par des développeurs du monde entier pour créer des images qui présentent certaines des caractéristiques qui nous intéressent. Ils produisent des images qui ressemblent presque à de l'art abstrait", explique Baradad.
Ces programmes simples peuvent être exécutés si rapidement que les chercheurs n'ont pas eu besoin de créer des images à l'avance pour entraîner le modèle. Les chercheurs ont découvert qu'ils pouvaient générer des images et entraîner le modèle en même temps, ce qui rationalise le processus. Ils ont utilisé leur vaste ensemble de données de programmes de création d'images pour pré-entraîner des modèles de vision par ordinateur à la fois pour des tâches de classification d'images supervisées et non supervisées. Dans l'apprentissage supervisé, les données d'image sont étiquetées, tandis que dans l'apprentissage non supervisé, le modèle apprend à catégoriser les images sans étiquettes.
Amélioration de la précision
Lorsqu'ils ont comparé leurs modèles pré-entraînés à des modèles modernes de vision par ordinateur pré-entraînés avec des données synthétiques, leurs modèles étaient plus précis, c'est-à-dire qu'ils attribuaient plus souvent les images aux bonnes catégories. Bien que la précision soit toujours inférieure à celle des modèles entraînés avec des données réelles, leur technique a réduit de 38 % l'écart de performance entre les modèles entraînés avec des données réelles et ceux entraînés avec des données synthétiques.
"Ce qui est important, c'est que nous montrons que les performances évoluent de manière logarithmique pour le nombre de programmes collectés. Nous n'atteignons pas la saturation des performances, c'est-à-dire que si nous collections davantage de programmes, le modèle serait encore plus performant. Il y a donc une possibilité d'étendre notre approche", explique Manel.
Les chercheurs ont également utilisé chaque programme de génération d'images pour un pré-entraînement afin de déterminer les facteurs qui contribuent à la précision du modèle. Ils ont constaté que le modèle s'en sortait mieux lorsqu'un programme produisait une plus grande variété d'images. Ils ont également constaté que les images colorées, avec des scènes qui remplissent tout l'écran, améliorent le plus les performances du modèle.
Après avoir démontré le succès de cette approche de pré-apprentissage, les chercheurs veulent maintenant étendre leur technique à d'autres types de données, par exemple les données multimodales contenant du texte et des images. Ils veulent également continuer à chercher des moyens d'améliorer les performances de classification des images.
Source : Techexplore.com