Forscher nutzen KI, um ähnliche Materialien in Bildern zu identifizieren

Bilder zum Herunterladen auf der Website des MIT News-Büros werden nichtkommerziellen Unternehmen, der Presse und der Öffentlichkeit unter einer Creative Commons-Lizenz „Namensnennung, nicht kommerziell, keine Bearbeitung“ zur Verfügung gestellt. Sie dürfen die bereitgestellten Bilder nicht verändern, außer sie auf die richtige Größe zuzuschneiden. Bei der Reproduktion von Bildern muss eine Kreditlinie in Anspruch genommen werden; Wenn dies unten nicht angegeben ist, nennen Sie die Bilder „MIT“.

Vorheriges Bild Nächstes Bild

Ein Roboter, der Gegenstände manipuliert, während er beispielsweise in der Küche arbeitet, wird davon profitieren, wenn er versteht, welche Gegenstände aus den gleichen Materialien bestehen. Mit diesem Wissen würde der Roboter wissen, dass er eine ähnliche Kraft ausüben muss, egal ob er ein kleines Stück Butter aus einer schattigen Ecke der Theke oder ein ganzes Stück Butter aus dem hell erleuchteten Kühlschrank aufnimmt.

Das Identifizieren von Objekten in einer Szene, die aus demselben Material bestehen, die sogenannte Materialauswahl, ist für Maschinen ein besonders anspruchsvolles Problem, da das Erscheinungsbild eines Materials je nach Form des Objekts oder Lichtverhältnissen drastisch variieren kann.

Wissenschaftler am MIT und Adobe Research haben einen Schritt zur Lösung dieser Herausforderung gemacht. Sie entwickelten eine Technik, die alle Pixel in einem Bild identifizieren kann, die ein bestimmtes Material darstellen, das in einem vom Benutzer ausgewählten Pixel angezeigt wird.

Die Methode ist selbst dann genau, wenn Objekte unterschiedliche Formen und Größen haben, und das von ihnen entwickelte maschinelle Lernmodell wird nicht durch Schatten oder Lichtverhältnisse ausgetrickst, die dazu führen können, dass dasselbe Material anders erscheint.

Obwohl sie ihr Modell nur mit „synthetischen“ Daten trainierten, die von einem Computer erstellt werden, der 3D-Szenen modifiziert, um viele unterschiedliche Bilder zu erzeugen, funktioniert das System effektiv bei realen Innen- und Außenszenen, die es noch nie zuvor gesehen hat. Der Ansatz lässt sich auch für Videos nutzen; Sobald der Benutzer im ersten Bild ein Pixel identifiziert, kann das Modell im restlichen Video Objekte identifizieren, die aus demselben Material bestehen.

Zusätzlich zu Anwendungen im Szenenverständnis für die Robotik könnte diese Methode zur Bildbearbeitung verwendet oder in Rechensysteme integriert werden, die die Parameter von Materialien in Bildern ableiten. Es könnte auch für materialbasierte Web-Empfehlungssysteme verwendet werden. (Vielleicht sucht ein Käufer beispielsweise nach Kleidung aus einer bestimmten Stoffart.)

„Oft ist es sehr wichtig zu wissen, mit welchem Material man interagiert. Obwohl zwei Objekte ähnlich aussehen, können sie unterschiedliche Materialeigenschaften haben. Unsere Methode kann die Auswahl aller anderen Pixel in einem Bild erleichtern, die aus demselben Material bestehen.“ sagt Prafull Sharma, ein Doktorand der Elektrotechnik und Informatik und Hauptautor einer Arbeit über diese Technik.

Zu Sharmas Co-Autoren gehören Julien Philip und Michael Gharbi, Forschungswissenschaftler bei Adobe Research; und die leitenden Autoren William T. Freeman, Thomas und Gerd Perkins Professor für Elektrotechnik und Informatik und Mitglied des Computer Science and Artificial Intelligence Laboratory (CSAIL); Frédo Durand, Professor für Elektrotechnik und Informatik und Mitglied von CSAIL; und Valentin Deschaintre, Forschungswissenschaftler bei Adobe Research. Die Forschung wird auf der SIGGRAPH 2023-Konferenz vorgestellt.

Ein neuer Ansatz

Bestehende Methoden zur Materialauswahl haben Schwierigkeiten, alle Pixel, die dasselbe Material repräsentieren, genau zu identifizieren. Einige Methoden konzentrieren sich beispielsweise auf ganze Objekte, ein Objekt kann jedoch aus mehreren Materialien bestehen, beispielsweise ein Stuhl mit Holzarmen und einem Ledersitz. Bei anderen Methoden wird möglicherweise ein vorgegebener Satz an Materialien verwendet, diese werden jedoch häufig allgemein als „Holz“ bezeichnet, obwohl es Tausende von Holzarten gibt.

Stattdessen entwickelten Sharma und seine Mitarbeiter einen maschinellen Lernansatz, der alle Pixel in einem Bild dynamisch auswertet, um die materiellen Ähnlichkeiten zwischen einem vom Benutzer ausgewählten Pixel und allen anderen Bereichen des Bildes zu bestimmen. Wenn ein Bild einen Tisch und zwei Stühle enthält und die Stuhlbeine und die Tischplatte aus derselben Holzart bestehen, könnte ihr Modell diese ähnlichen Bereiche genau identifizieren.

Bevor die Forscher eine KI-Methode entwickeln konnten, um zu lernen, wie man ähnliche Materialien auswählt, mussten sie einige Hürden überwinden. Erstens enthielt kein vorhandener Datensatz Materialien, die fein genug beschriftet waren, um ihr maschinelles Lernmodell zu trainieren. Die Forscher erstellten ihren eigenen synthetischen Datensatz von Innenszenen, der 50.000 Bilder und mehr als 16.000 Materialien enthielt, die zufällig auf jedes Objekt angewendet wurden.

„Wir wollten einen Datensatz, in dem jede einzelne Materialart unabhängig gekennzeichnet ist“, sagt Sharma.

Mit einem synthetischen Datensatz trainierten sie ein maschinelles Lernmodell für die Aufgabe, ähnliche Materialien in realen Bildern zu identifizieren – aber es scheiterte. Die Forscher erkannten, dass eine Verschiebung der Verteilung dafür verantwortlich war. Dies tritt auf, wenn ein Modell mit synthetischen Daten trainiert wird, beim Testen mit realen Daten, die sich stark vom Trainingssatz unterscheiden können, jedoch fehlschlägt.

Um dieses Problem zu lösen, bauten sie ihr Modell auf einem vorab trainierten Computer-Vision-Modell auf, das Millionen realer Bilder gesehen hatte. Sie nutzten die Vorkenntnisse dieses Modells, indem sie die bereits erlernten visuellen Funktionen nutzten.

„Wenn Sie beim maschinellen Lernen ein neuronales Netzwerk verwenden, geht es normalerweise darum, die Darstellung und den Prozess der Lösung der Aufgabe gemeinsam zu lernen. Wir haben dies entwirrt. Das vorab trainierte Modell liefert uns die Darstellung, dann konzentriert sich unser neuronales Netzwerk nur auf die Lösung der Aufgabe.“ Aufgabe“, sagt er.

Nach Ähnlichkeit suchen

Das Modell der Forscher wandelt die generischen, vorab trainierten visuellen Merkmale in materialspezifische Merkmale um, und zwar auf eine Weise, die gegenüber Objektformen oder unterschiedlichen Lichtverhältnissen robust ist.

Das Modell kann dann für jedes Pixel im Bild einen Materialähnlichkeitswert berechnen. Wenn ein Benutzer auf ein Pixel klickt, ermittelt das Modell, wie nah jedes zweite Pixel optisch an der Suchanfrage ist. Es wird eine Karte erstellt, in der jedes Pixel hinsichtlich seiner Ähnlichkeit auf einer Skala von 0 bis 1 eingestuft wird.

„Der Benutzer klickt einfach auf ein Pixel und dann wählt das Modell automatisch alle Regionen aus, die das gleiche Material haben“, sagt er.

Da das Modell für jedes Pixel einen Ähnlichkeitswert ausgibt, kann der Benutzer die Ergebnisse durch Festlegen eines Schwellenwerts, beispielsweise 90 Prozent Ähnlichkeit, verfeinern und erhält eine Karte des Bildes mit hervorgehobenen Regionen. Die Methode funktioniert auch bei der bildübergreifenden Auswahl – der Benutzer kann ein Pixel in einem Bild auswählen und dasselbe Material in einem separaten Bild finden.

Bei Experimenten stellten die Forscher fest, dass ihr Modell Regionen eines Bildes, die dasselbe Material enthielten, genauer vorhersagen konnte als andere Methoden. Als sie maßen, wie gut die Vorhersage im Vergleich zur Grundwahrheit war, also zu den tatsächlichen Bereichen des Bildes, die aus demselben Material bestehen, stimmte ihr Modell mit einer Genauigkeit von etwa 92 Prozent überein.

In Zukunft wollen sie das Modell so verbessern, dass es feine Details der Objekte in einem Bild besser erfassen kann, was die Genauigkeit ihres Ansatzes erhöhen würde.

„Reichhaltige Materialien tragen zur Funktionalität und Schönheit der Welt, in der wir leben, bei. Computer-Vision-Algorithmen übersehen jedoch normalerweise Materialien und konzentrieren sich stattdessen stark auf Objekte. Dieser Artikel leistet einen wichtigen Beitrag zur Erkennung von Materialien in Bildern und Videos unter einem breiten Spektrum anspruchsvoller Bedingungen „, sagt Kavita Bala, Dekanin des Cornell Bowers College of Computing and Information Science und Professorin für Informatik, die nicht an dieser Arbeit beteiligt war. „Diese Technologie kann sowohl für Endverbraucher als auch für Designer sehr nützlich sein. Ein Hausbesitzer kann sich beispielsweise vorstellen, wie teuer Entscheidungen wie die Neupolsterung eines Sofas oder der Austausch des Teppichbodens in einem Raum sein könnten, und kann sich bei seinen Designentscheidungen sicherer fühlen.“ basierend auf diesen Visualisierungen.“

MIT-Forscher haben eine neue maschinelle Lerntechnik entwickelt, die identifizieren kann, welche Pixel in einem Bild dasselbe Material darstellen, was beim Verständnis von Roboterszenen helfen könnte, berichtet Kyle Wiggers für TechCrunch. „Da ein Objekt aus mehreren Materialien sowie Farben und anderen visuellen Aspekten bestehen kann, ist dies ein ziemlich subtiler, aber auch intuitiver Unterschied“, schreibt Wiggers.

Vorheriger Artikel Nächster Artikel

Ein neuer Ansatz zur Lösung nach Ähnlichkeit

Blog

Forscher nutzen KI, um ähnliche Materialien in Bildern zu identifizieren