GPT-4, die neueste Iteration der von OpenAI verwalteten GPT-Modellreihe, kann auf multimodale Abfragen reagieren. Multimodale Abfragen verwenden Text und Bilder. Bis vor kurzem waren multimodale Abfragen jedoch nicht für die öffentliche Nutzung verfügbar. Nun hat Microsoft langsam damit begonnen, Bildeingabeoptionen in seinem Bing-Chat einzuführen, wo Sie jetzt Bilder hochladen können.
In unserem Blogbeitrag aus der Zeit, als GPT-4 erstmals veröffentlicht wurde , spekulierten wir, dass GPT-4 bei unstrukturierten Aufgaben zum qualitativen Verständnis (wie Untertiteln, Beantworten von Fragen und konzeptionellem Verständnis) gute Ergebnisse erzielen würde, Schwierigkeiten beim Extrahieren präziser strukturierter Informationen (wie Begrenzungsrahmen ) hätte und wir uns nicht sicher waren, wie gut GPT-4 bei Aufgaben zur Lokalisierung, Zählung und Posenschätzung abschneiden würde.
Die im Mai veröffentlichte Chatfunktion von Bing verwendet GPT-4 für ihre Textantworten und Mikhail Parakhin, CEO für Werbung und Web Services bei Microsoft, hat kürzlich ( zweimal ) bestätigt , dass die Bildeingabefunktionen von Bing ebenfalls auf GPT-4 basieren.
In diesem Blogbeitrag diskutieren wir, wie gut Bing und damit auch GPT-4s Kombination aus Text- und Bildeingabe funktioniert. Wir werden untersuchen, was Bing Chat gut kann, was es nicht kann und wie es sich auf die Computervision insgesamt auswirkt.
Testen der Multimodalitys funktionen von Bing
Wir haben Bing Fragen anhand von Bildern aus drei verschiedenen öffentlich verfügbaren Datensätzen von Roboflow Universe gestellt , um die Leistung von Bing qualitativ zu bewerten:
- Personen zählen: Datensatz „Harry Hat Workers Universe“
- Objekte zählen: Apples Universe-Datensatz
- Beschriftung/Klassifizierung: ImageNet
Personen zählen
Unser erster Test besteht darin, die Personen in einem Bild mithilfe des Datensatzes der Bauarbeiter zu zählen . Computer Vision-Enthusiasten wissen, dass das Zählen von Objekten keine triviale Aufgabe ist und selbst mit individuell trainierten Modellen ein schwieriges Problem darstellt. Um sowohl die Genauigkeit und Variabilität des Modells selbst als auch die Auswirkungen verschiedener Eingabeaufforderungen darauf zu testen, haben wir vier Eingabeaufforderungen mit zunehmender Komplexität geschrieben:
- Zählen Sie die Anzahl der Personen auf diesem Bild (einfache, unstrukturierte Frage/Antwort)
- Wie viele Personen sind auf diesem Bild? (Einfache unstrukturierte Frage/Antwort)
- Geben Sie die Anzahl der Personen auf dem Bild in JSON an. Beispiel: `{„people“:3}` (Einfache Frage/Antwort in strukturiertem Format)
- Was sind die normalisierten x/y-Mittelpunkte und die Breite und Höhe jeder Person, ausgedrückt im JSON-Format `{„x“:0.000,“y“:0.000,“width“:0.000,“height“:0.000}` (Erweiterte, präzise strukturierte Datenextraktion)
Wir testeten mit zehn zufällig ausgewählten Bildern, um jede Eingabeaufforderung zu testen und eine repräsentative Stichprobe zu erhalten. Wir fanden Folgendes heraus:
Das Modell war unterdurchschnittlich beim Zählen der Anzahl der Personen, die auf einem Bild zu sehen waren. Überraschenderweise funktionierte die Abfrage eines einfachen strukturierten Formats (in Form eines JSON) beim Modell viel besser als die meisten anderen Eingabeaufforderungen. Allerdings konnte Bing keine genauen Standorte oder Begrenzungsrahmen extrahieren und erzeugte entweder erfundene Begrenzungsrahmen oder überhaupt keine Antwort.
Anders als bei der Computervision-Statistik, bei der die Genauigkeit auf Grundlage einer gewissen Überlappung mit der Grundwahrheit berechnet wird, galten bei unserem Test zwei Bedingungen: ein korrekter Begrenzungsrahmen oder ein falscher Begrenzungsrahmen. Obwohl es bei der Objektidentifizierung große Ungenauigkeiten gab, lagen die meisten Ungenauigkeiten bei 1-2 Objekten.
Die schlechte Leistung von Bing kann jedoch auf eine Funktion zurückgeführt werden, die Gesichter verwischt und dadurch ein erkennbares Merkmal von Personen entfernt, was wiederum die Effektivität der Personenzählung verringert.
Objekte zählen
Nachdem wir gesehen hatten, was beim vorherigen Test gut und was schlecht abgeschnitten hatte, testeten wir GPT-4 erneut, allerdings mit einem Objekterkennungsdatensatz von Apple . Wir stellten fest, dass unterschiedliche Formulierungen von Eingabeaufforderungen mit demselben beabsichtigten Ergebnis kaum einen Unterschied in der Genauigkeit bewirkten, unterschiedliche Formate jedoch schon. Wir stellten auch fest, dass es nicht möglich war, präzise Daten zu extrahieren, also gaben wir das auf.
Aus dieser Erfahrung haben wir drei neue Eingabeaufforderungen geschrieben:
- Wie viele Äpfel sind auf diesem Bild? (Grundlegende unstrukturierte Daten)
- Geben Sie die Anzahl der Äpfel im Bild in JSON an. Beispiel: `{„apples“:3}` (Grundlegende strukturierte Daten)
- Geben Sie die Anzahl der Äpfel jeder Farbe in diesem Bild im JSON-Format an. Beispiel: `{‚red“: 1, „green“: 2}` (Strukturierte, qualitative und quantitative Daten)
Wir haben die drei Eingabeaufforderungen erneut mit jeweils zehn zufällig ausgewählten Bildern getestet.
Dieser Versuch schnitt durchweg besser ab als die Aufgabe, Personen zu zählen. Die höhere Genauigkeit kann auf die zuvor erwähnte Unschärfe menschlicher Gesichter zurückzuführen sein. Bemerkenswerterweise war Bing bei dieser Aufgabe sowohl bei der qualitativen als auch bei der quantitativen Datenextraktion erfolgreicher, da es Objekte anhand qualitativer Merkmale zählte.
Bildbeschriftung/Bildklassifizierung
Für unseren letzten Test haben wir uns für ImageNet entschieden , einen beliebten Datensatz für Bildklassifizierung und Objekterkennung. Mit über 14 Millionen Bildern ist dieser Datensatz ein Benchmark für die Bildklassifizierung und ein Ausgangspunkt für viele Bildklassifizierungsmodelle. Jedes Bild ist mit einer von tausend Kategorien gekennzeichnet.
Für unsere Zwecke haben wir 20 Klassen mit einem zufälligen Bild aus jeder Klasse nach dem Zufallsprinzip ausgewählt, um jede Eingabeaufforderung damit zu testen. Im Gegensatz zu den anderen Tests, bei denen es sich um „Bestanden/Nicht bestanden“ handelte, erhielt dieser Test einen semantischen Ähnlichkeitswert, eine Punktzahl von 0-1 (oder 0-100 %), die angibt, wie ähnlich die Bedeutung zweier Wörter ist. 100 Prozent würden bedeuten, dass es genau dasselbe ist.
Bing erreichte eine durchschnittliche Genauigkeit von etwa 86,5 %, wobei 50,0 % der Versuche 100 % und die andere Hälfte durchschnittlich 73,0 % erreichten.
Die hohe durchschnittliche Genauigkeit, kombiniert mit einer hohen Genauigkeit auch bei unvollständigen Ergebnissen, weist auf ein hohes Maß an Bildverständnis und ein gutes Potenzial für Anwendungsfälle zur Umwandlung von Bild in Text hin.
Bing Multimodality: Wichtige Erkenntnisse
Die neue Bildeingabefunktion von Bing hat mehrere Stärken, die sie gegenüber ähnlichen Alternativen besser machen. Allerdings gibt es auch erhebliche Nachteile bei ihrer Verwendung und Bereiche, in denen andere Arten der Computervision möglicherweise besser funktionieren.
Wofür Bing Chat (GPT-4) gut ist
Eine Stärke des zugrunde liegenden Bing-Chat-Modells ist seine Fähigkeit, qualitative Merkmale wie den Kontext und die Nuancen einer Situation in einem bestimmten Bild zu erkennen. Während die meisten Computer-Vision-Modelle nur bestimmte beschriftete Objekte isoliert identifizieren können, ist GPT-4 in der Lage, Interaktionen, Beziehungen und Nuancen zwischen Elementen in einem Bild zu identifizieren und zu beschreiben.
Die Integration visueller Eingabeaufforderungen in ein Chat-Format sowie in andere Bing-Dienste ermöglicht viel mehr Vielseitigkeit und Flexibilität bei der Verwendung als Verbraucherprodukt. Die Integration mit Bing wird deutlicher, wenn Bilder mit mehr Elementen verwendet werden. Hier wurde mit der Integration anderer Microsoft-Dienste wie Bing Translate begonnen.
Das Verständnis des Bing Chat-Modells für die komplexen Nuancen hinter einem Bild und seine hohe Genauigkeit bei der Zero-Shot -Klassifizierung sowie die Fähigkeit zur Interaktion machen es für viele Anwendungsfälle im Verbraucherbereich gut geeignet. Dazu gehören das Identifizieren und Benennen von Alltagsgegenständen, das Digitalisieren von Bildern oder sogar unterstützende Anwendungen, wie das Beschreiben von Bildern für Schwerhörige.
Wo Bing Chat (GPT-4) weniger effektiv ist
Es gibt erhebliche Einschränkungen bei der Nutzung der neuen Funktionen von Bing, insbesondere in Anwendungsfällen, in denen quantitative Daten wichtig sind.
Ein großer Nachteil der aktuellen Funktionen von Bing Chat ist das konsistente und genaue Extrahieren von Details und Ergebnissen aus Bildern. Obwohl es Daten formatieren kann, wie wir im ersten und zweiten Test gesehen haben, ist die Genauigkeit dieser Daten oft unzuverlässig.
Die Inkonsistenz, die mit Sprachmodellen einhergeht, kann auch deren Verwendung in einem industriellen oder Produktumfeld erschweren, wo unvorhersehbares Verhalten problematisch oder prohibitiv sein kann. Beispielsweise beantwortet das Modell gelegentlich dieselbe Frage in einer völlig unerwarteten und unbekannten Form.
Beim Zählen wurde Bing Chat mit überwältigender Mehrheit 12als Zählwert bevorzugt, auch wenn die tatsächliche Zählung völlig daneben lag. Bei unseren Tests war das Zählen für einzelne Gegenstände oder Personen jedoch immer korrekt.
Wird GPT-4 die traditionelle Computervision ersetzen?
Da die Bildfunktionalität von GPT-4 noch nicht öffentlich gemacht wurde und die Multimodality funktionen von Bing noch nicht vollständig ausgerollt sind, scheint es, dass aufgabenspezifische CV-Modelle GPT-4 noch immer deutlich übertreffen.
Der Hauptanwendungsfall für die Multimodality von GPT-4 selbst könnte eher die allgemeine Verwendung durch Verbraucher als industrielle Computer-Vision-Aufgaben sein. Wenn das Modell verbessert wird und eine API verfügbar ist, ist es möglich, dass eines Tages ein multimodales GPT-Tool Teil von Computer-Vision-Workflows wird. Eine wahrscheinliche Möglichkeit ist, dass diese Technologie bei Zero-Shot-Bild-zu-Text, allgemeiner Bildklassifizierung und Kategorisierung verwendet wird, da GPT-4 bei Bildbeschriftungs- und Klassifizierungsaufgaben ohne Training unglaublich gut funktioniert.
Modelle wie GPT-4 verfügen über eine Menge leistungsstarker, verallgemeinerter Informationen. Die Ausführung von Inferenzen kann jedoch aufgrund der Berechnungen, die OpenAI und Microsoft durchführen müssen, um Ergebnisse zurückzugeben, kostspielig sein. Der beste Anwendungsfall für Entwickler und Unternehmen könnte darin bestehen, die Informationen und die Leistung dieser großen multimodalen Modelle zu nutzen, um kleinere, schlankere Modelle zu trainieren, wie Sie es mit Autodistill tun können hugging face.
Zitieren Sie diesen Beitrag
Verwenden Sie den folgenden Eintrag, um diesen Beitrag bei Ihrer Recherche zu zitieren:
Leo Ueno . (7. Juli 2023). Wie gut ist die Multimodality von Bing (GPT-4)? Roboflow-Blog: https://blog.roboflow.com/how-good-is-bing-gpt-4-multimodality/
Besprechen Sie diesen Beitrag
Wenn Sie Fragen zu diesem Blogbeitrag haben, starten Sie eine Diskussion im Roboflow-Forum .