Forscher finden Weg für Maschinelles Lernen ohne echte Bilddaten
Bevor ein Modell für maschinelles Lernen eine Aufgabe erfüllen kann, z. B. die Erkennung von Krebs in medizinischen Bildern, muss das Modell trainiert werden. Beim Training von Bildklassifizierungsmodellen werden dem Modell in der Regel Millionen von Beispielbildern gezeigt, die in einem umfangreichen Datensatz gesammelt wurden. Doch dürfen dabei echte Bilddaten einfach so verwendet werden?
In der Medizin kommen immer häufiger Computersysteme zum Einsatz, die mittels künstlicher Intelligenz Bilder interpretieren und Ärzte beim Stellen von Diagnosen unterstützen. Dies funktioniert, indem sie die neuen Bilder mit mit schon bestehenden Bilddaten abgleichen. Dabei „lernt“ die Maschine laufend mit. Maschinelles Lernen anhand von Bildern hat aber seine Tücken.
Urheberrechte können maschinelles Lernen verhindern
Die Verwendung echter Bilddaten für das Training von maschinellem Lernen kann nämlich praktische und ethische Probleme aufwerfen: Die Bilder könnten gegen Urheberrechtsgesetze verstossen, die Privatsphäre von Menschen verletzen oder einer bestimmten Rasse oder ethnischen Gruppe gegenüber voreingenommen sein. Um diese Fallstricke zu vermeiden, können Forscher mit Hilfe von Bildgenerierungsprogrammen synthetische Daten für das Modelltraining erstellen. Diese Techniken sind jedoch nur begrenzt einsetzbar, da häufig Expertenwissen erforderlich ist, um ein Bilderzeugungsprogramm zu entwerfen, das effektive Trainingsdaten erzeugen kann.
Forscher des MIT, des MIT-IBM Watson AI Lab und anderer Institute haben deshalb einen anderen Ansatz gewählt. Anstatt maßgeschneiderte Bilderzeugungsprogramme für eine bestimmte Trainingsaufgabe zu entwickeln, sammelten sie einen Datensatz von 21.000 öffentlich verfügbaren Programmen aus dem Internet. Dann nutzten sie diese große Sammlung grundlegender Bilderzeugungsprogramme, um ein Computer-Vision-Modell zu trainieren. Diese Programme erzeugen verschiedene Bilder, die einfache Farben und Texturen darstellen. Die Forscher haben die Programme, die jeweils nur aus einigen wenigen Codezeilen bestehen, weder bearbeitet noch verändert.
Bildprogramme als valabler Ersatz
Die Modelle, die sie mit diesem grossen Datensatz von Programmen trainierten, klassifizierten Bilder genauer als andere synthetisch trainierte Modelle. Und obwohl ihre Modelle schlechter abschnitten als jene, die mit echten Daten trainierten, zeigten die Forscher, dass die Erhöhung der Anzahl der Bildprogramme im Datensatz auch die Leistung des Modells steigerte und einen Weg zu höherer Genauigkeit aufzeigte.
„Es stellt sich heraus, dass die Verwendung vieler unkuratierter Programme tatsächlich besser ist als die Verwendung eines kleinen Satzes von Programmen, die von Menschen manipuliert werden müssen. Daten sind wichtig, aber wir haben gezeigt, dass man auch ohne echte Daten ziemlich weit kommen kann“, sagt Manel Baradad, Doktorand der Elektrotechnik und Informatik (EECS) im Computer Science and Artificial Intelligence Laboratory (CSAIL) und Hauptautor der Forschungsarbeit, in der diese Technik beschrieben wird.
Überdenken des Vortrainings
Modelle des maschinellen Lernens werden in der Regel vortrainiert, d. h. sie werden zunächst auf einem Datensatz trainiert, um Parameter zu entwickeln, die für die Bewältigung einer anderen Aufgabe verwendet werden können. Ein Modell zur Klassifizierung von Röntgenbildern könnte mit einem riesigen Datensatz synthetisch erzeugter Bilder trainiert werden, bevor es für seine eigentliche Aufgabe mit einem viel kleineren Datensatz echter Röntgenbilder trainiert wird.
Die Forscher hatten zuvor gezeigt, dass sie eine Handvoll Bilderzeugungsprogramme verwenden konnten, um synthetische Daten für das Vortraining des Modells zu erstellen, aber die Programme mussten sorgfältig entworfen werden, damit die synthetischen Bilder mit bestimmten Eigenschaften der echten Bilder übereinstimmten. Dies machte es schwierig, die Technik zu erweitern. In der neuen Arbeit wurde stattdessen ein enormer Datensatz von unkuratierten Bilderzeugungsprogrammen verwendet.
Maschinelles Lernen mit „künstlich“ erzeugten Bildern
Die Forscher begannen damit, eine Sammlung von 21.000 Bilderzeugungsprogrammen aus dem Internet zusammenzustellen. Alle Programme sind in einer einfachen Programmiersprache geschrieben und bestehen aus nur wenigen Codeschnipseln, so dass sie schnell Bilder erzeugen. „Diese Programme wurden von Entwicklern auf der ganzen Welt entworfen, um Bilder zu erzeugen, die einige der Eigenschaften aufweisen, an denen wir interessiert sind. Sie erzeugen Bilder, die fast wie abstrakte Kunst aussehen“, erklärt Baradad.
Diese einfachen Programme können so schnell ausgeführt werden, dass die Forscher keine Bilder im Voraus erstellen mussten, um das Modell zu trainieren. Die Forscher fanden heraus, dass sie Bilder erzeugen und das Modell gleichzeitig trainieren konnten, was den Prozess rationalisiert. Sie nutzten ihren riesigen Datensatz von Bilderzeugungsprogrammen, um Computer-Vision-Modelle sowohl für überwachte als auch für unüberwachte Bildklassifizierungsaufgaben vorzutrainieren. Beim überwachten Lernen werden die Bilddaten mit Etiketten versehen, während das Modell beim unüberwachten Lernen lernt, Bilder ohne Etiketten zu kategorisieren.
Verbesserung der Genauigkeit
Als sie ihre vortrainierten Modelle mit modernen Computer-Vision-Modellen verglichen, die mit synthetischen Daten vortrainiert worden waren, waren ihre Modelle genauer, d. h. sie ordneten Bilder häufiger den richtigen Kategorien zu. Die Genauigkeit war zwar immer noch geringer als bei Modellen, die mit realen Daten trainiert wurden, aber ihre Technik verringerte die Leistungslücke zwischen Modellen, die mit realen Daten trainiert wurden, und solchen, die mit synthetischen Daten trainiert wurden, um 38 Prozent.
„Wichtig ist, dass wir zeigen, dass die Leistung für die Anzahl der gesammelten Programme logarithmisch skaliert. Wir erreichen keine Sättigung der Leistung, d. h. wenn wir mehr Programme sammeln, würde das Modell noch besser abschneiden. Es gibt also eine Möglichkeit, unseren Ansatz zu erweitern“, sagt Manel.
Die Forscher nutzten auch jedes einzelne Bilderzeugungsprogramm für ein Vortraining, um die Faktoren zu ermitteln, die zur Genauigkeit des Modells beitragen. Sie fanden heraus, dass das Modell besser abschneidet, wenn ein Programm eine größere Vielfalt an Bildern erzeugt. Sie fanden auch heraus, dass farbige Bilder mit Szenen, die die gesamte Leinwand ausfüllen, die Leistung des Modells am meisten verbessern.
Nachdem sie den Erfolg dieses Pretraining-Ansatzes nachgewiesen haben, wollen die Forscher ihre Technik nun auf andere Datentypen ausweiten, z. B. auf multimodale Daten, die Text und Bilder enthalten. Außerdem wollen sie weiter nach Wegen suchen, um die Klassifizierungsleistung von Bildern zu verbessern.
Quelle: Techexplore.com