Eine machtvolle neue Meta KI-Tool kann individuelle Elemente in Bildern identifizieren
Meta hat in dieser Woche einen großen Schritt nach vorne gemacht, indem es ein Modell vorstellte, das Objekte in einem Bild erkennen und isolieren kann, selbst wenn es sie zuvor noch nie gesehen hat. Die Technologie wird in einem Artikel auf dem ArXiv Preprint-Server vorgestellt und beschrieben.
Also Read:
Das KI-Tool stellt einen großen Fortschritt in einer der schwierigeren Herausforderungen der Technologie dar: Computer in die Lage zu versetzen, die Elemente eines zuvor unbekannten Bildes zu erkennen und zu verstehen und sie für die Benutzerinteraktion zu isolieren.
Es erinnert an ein Konzept, das der ehemalige Vorsitzende der National Security Commission on Artificial Intelligence, Robert O. Work, einmal beschrieben hat: „Was KI und maschinelles Lernen Ihnen ermöglichen, ist, die Nadel im Heuhaufen zu finden.“
Also Read:
In diesem Fall sucht das Segment Anything-Modell (SAM) von Meta nach zusammenhängenden Pixeln in einem Bild und identifiziert die gemeinsamen Bestandteile, aus denen alle Teile des Bildes bestehen. „SAM hat eine allgemeine Vorstellung davon gelernt, was Objekte sind, und kann Masken für jedes Objekt in jedem Bild oder jedem Video generieren, einschließlich Objekten und Bildtypen, die es während des Trainings nicht begegnet hat“, kündigte Meta AI in einem Blog-Post am Mittwoch an.
Die Erkennungsaufgabe wird Segmentation genannt. Wir tun dies täglich, ohne darüber nachzudenken. Wir erkennen Dinge auf unseren Büro-Tischen wie Smartphones, Kabel, Computerbildschirm, eine Lampe, eine schmelzende Schokoladenstange, eine Tasse Kaffee.
Also Read:
Aber ohne vorherige Programmierung muss ein Computer alle Komponenten bis zum letzten Pixel in einem zweidimensionalen Bild unterscheiden, und es wird komplizierter, wenn es sich um überlappende Gegenstände, Schatten oder eine unregelmäßige oder partitionierte Form handelt.
Bisherige Ansätze zur Segmentierung erforderten in der Regel menschliches Eingreifen, um eine Maske zu definieren. Frühere automatisierte Segmentierung ermöglichte die Erkennung von Objekten, aber nach Angaben von Meta AI erforderte dies „Tausende oder sogar Zehntausende von Beispielen“ von Objekten sowie „Computerressourcen und technisches Fachwissen, um das Segmentierungsmodell zu trainieren“.
Also Read:
SAM kombiniert die beiden Ansätze in einem vollautomatisierten System. Es nutzt mehr als eine Milliarde Masken, die es ihm ermöglichen, neue Arten von Objekten zu erkennen. „Diese Fähigkeit zur Verallgemeinerung bedeutet, dass Praktiker im Allgemeinen nicht mehr ihre eigenen Segmentierungsdaten sammeln und ein Modell für ihren Anwendungsfall feinabstimmen müssen“, so der Meta-Blog.
Ein Rezensent bezeichnete SAM als „Photoshop’s ‚Magic Wand‘-Werkzeug auf Steroiden“. SAM kann durch Benutzerklicks oder Textprompte aktiviert werden. Meta-Forscher sehen weitere Möglichkeiten der Nutzung von SAM im Bereich AR/VR. Wenn Benutzer sich auf ein Objekt konzentrieren, kann es abgegrenzt, definiert und in ein 3D-Bild „angehoben“ und in einen Film, ein Spiel oder eine Präsentation eingebunden werden.
Also Read:
Ein kostenloses Arbeitsmodell steht online zur Verfügung. Benutzer können aus einer Bildergalerie auswählen oder ihre eigenen Fotos hochladen. Sie können dann irgendwo auf dem Bildschirm tippen oder ein Rechteck um ein interessantes Element ziehen und dabei zusehen, wie SAM beispielsweise die Kontur einer Nase, eines Gesichts oder eines ganzen Körpers definiert. Eine weitere Option fordert SAM auf, jedes Objekt in einem Bild zu identifizieren.
Obwohl SAM noch nicht auf Facebook angewendet wurde, wurde eine ähnliche Technologie auf bekannte Prozesse wie Fototagging, Moderation und Tagging von unzulässigen Inhalten sowie die Generierung von empfohlenen Beiträgen auf Facebook und Instagram angewendet.
Also Read:
In Other News Around the World: