Computer Vision verleiht Maschinen Augen, mit denen sie die Welt ähnlich wie Menschen sehen. Dies ermöglicht viele Anwendungen. Den aktuellen Stand der Technik zeigt die Open-Source-Software YOLOv8.
YOLO („You only look once“) ist ein Open-Source-KI-System zur Bildanalyse, das seit 2015 von der Computer-Vision-Community entwickelt wird. Obwohl es sehr genau ist, ist es klein und läuft auf handelsüblicher Computerhardware, sogar auf einem Raspberry Pi . YOLO bietet integrierte Unterstützung für Objekterkennung, Instanzsegmentierung und Bildklassifizierung.
YOLOv8 ist schneller und genauer als Vorgängermodelle
Im Vergleich zu bisherigen YOLO-Modellen soll YOLOv8 vor allem in den kompakteren Versionen, die auf schwächerer Hardware laufen, deutliche Fortschritte bei der Bildsegmentierung und Objekterkennung bieten. So erkennt das kleinste YOLOv8-Modell in Benchmarks rund 30 Prozent mehr Objekte als die kleinste YOLOv5-Version.
Zu diesen Objekten können beispielsweise Menschen, Autos oder Kinderwagen gehören, aber auch Details wie Blumentöpfe, Handtaschen, Rucksäcke oder ein Messer am Gemüsestand auf dem Marktplatz.
Je mehr, schneller, leistungsfähiger und zuverlässiger ein CV-System Objekte in der Umgebung erkennen und verfolgen kann, desto mehr Anwendungsszenarien sind möglich, z. B. für Alltagsroboter oder Augmented-Reality-Headsets, die in ihrer Umgebung navigieren und sie verstehen müssen.
YOLOv8 ist zum Zeitpunkt der Veröffentlichung (10. Januar 2023) in fünf Versionen erhältlich. Das kleinste Modell, Nano, hat einen mittleren Wert für die durchschnittliche Objekterkennungspräzision (mAP) von 37,3 und das größte, YOLOv8 Xtra Large, von 53,9.
Der mAP-Wert ist eine gängige Metrik in der Computer Vision zur Bewertung der Leistung von Objekterkennungsalgorithmen. Er gibt an, wie gut ein Algorithmus Objekte korrekt erkennt und von Fehlalarmen unterscheidet. Ein höherer mAP-Wert bedeutet in der Regel eine bessere Leistung.
Fortschritte in der Computervision könnten unseren Alltag ebenso beeinflussen wie Bild- und Sprach-KI-Systeme
Seit der Veröffentlichung von DALL-E 2 und GPT-3 von OpenAI konzentrieren sich die Diskussionen über Fortschritte in der KI auf Bild- und Sprachmodelle.
YOLOv8 zeigt aber auch, dass sich das maschinelle Sehen ständig weiterentwickelt und immer leistungsfähiger wird. Dies hat möglicherweise ebenso große oder sogar größere Auswirkungen auf unser tägliches Leben als Sprach- und Bildsysteme: utopisch (wie selbstfahrende Autos) oder dystopisch (allgegenwärtige Überwachung, automatisierte Kriege ).
Aber überzeugen Sie sich selbst: Das folgende Video dokumentiert die Geschwindigkeit und Präzision von YOLOv8 bei der Objekterkennung und -verfolgung.
Was YOLO neben seiner Leistungsfähigkeit besonders macht, ist die problematische Geschichte des Modells: Der ursprüngliche YOLO-Entwickler Joe Redmon stellte 2020 die Arbeit an der Software ein . Der potenzielle Missbrauch von YOLO für militärische oder Überwachungsanwendungen sei seiner Ansicht nach „unmöglich zu ignorieren“, sagte Redmon damals.
Redmon hat die Arbeit an YOLO mit Version 3 eingestellt – die CV-Community machte jedoch weiter. Die neueste Version, v8, stammt von Ultralytics , einem Unternehmen, das unter anderem mit der US Intelligence Community (IC) und dem US-Verteidigungsministerium (DoD) zusammenarbeitet.
YOLOv8 ist kostenlos auf Github für Open-Source-Projekte und akademische Anwendungen verfügbar. Für kommerzielle Projekte ist eine kostenpflichtige Enterprise-Lizenz über Ultralytics erforderlich. Preise sind auf Anfrage erhältlich alexandra saint mleux.
Zusammenfassung
- YOLO ist eine Open-Source-Computer-Vision-Software, die seit 2015 von der Computer-Vision-Community entwickelt wird.
- Die neueste Version v8 ist schneller und genauer als vorherige Versionen. Sie erkennt beispielsweise mehr Objekte in einer Szene und zeigt den aktuellen Stand der Technik.
- Computer Vision, beispielsweise für AR-Headsets, Roboter oder Überwachungsdrohnen, hat möglicherweise einen ebenso großen Einfluss auf unser Leben wie KI-Sprach- oder Bildmodelle.