ImageNet ist eine umfangreiche Bilddatenbank, die eine große Menge kontrollierter und von Menschen kommentierter Bilder enthält. Diese Datenbank hat zweifellos einen großen Einfluss auf die Weiterentwicklung der Computer Vision-Softwareforschung gehabt.
Eine der wichtigsten Aufgaben der heutigen KI ist die Bildklassifizierung. Dabei handelt es sich um eine Technik, die in der Computervision verwendet wird, um den Hauptinhalt (Objekte) in einem Foto oder Video zu identifizieren und zu kategorisieren. Bei der Bildklassifizierung kommen KI-basierte Deep-Learning-Modelle zum Einsatz, um Bilder zu analysieren und Objekterkennung durchzuführen, sowie ein menschlicher Bediener. Beispiele für die Bildklassifizierung sind:
- Analysieren Sie die Fotos, um zu bestimmen, ob sie allgemeine Objekte wie Autos, Menschen und Tiere enthalten.
- Spezialanwendungen in der Medizin zur Untersuchung von Scans auf Krankheiten, z. B. Diagnosen durch CT-Scans, MRT usw.
- Identifizierung von Autos, LKWs, Fußgängern und Verkehrszeichen in autonomen Fahrzeugen.
Der Bedarf an Bildtrainingsdatensätzen
Um die Bildklassifizierungsalgorithmen zu trainieren, benötigen wir Bilddatensätze. Diese Datensätze enthalten mehrere Bilder, die denen ähneln, die der Algorithmus im wirklichen Leben ausführen wird. Unüberwachte Modelle werden normalerweise mit unbeschrifteten Datensätzen trainiert, während überwachte Modelle beschriftete Bilddatensätze verwenden, um sie zu trainieren und zu testen. Die Beschriftungen liefern das Wissen, aus dem der Algorithmus lernen kann.
Bilddatensätze werden häufig zum Trainieren von Bildklassifizierungsmodellen verwendet. Zu Beginn wird der Datensatz in Trainings- und Testdatensätze aufgeteilt. Beispielsweise bilden 70 % der Bilder den Trainingsdatensatz und die restlichen 30 % werden als Testdatensatz verwendet – unbekannte Beispiele zum Testen der Leistung des Algorithmus.
Bilddatensätze werden außerdem als Benchmark in Computer Vision-Algorithmen verwendet . Die Anwendung verschiedener Algorithmen auf denselben Datensatz ist eine effektive Möglichkeit, ihre Leistung für eine bestimmte Aufgabe zu überprüfen.
Was ist ImageNet?
ImageNet ist eine öffentlich zugängliche, groß angelegte Datenbank mit kommentierten Bildern, die für die Verwendung in mehreren Computer Vision-Aufgaben zusammengestellt wurde. Sie enthält über 14 Millionen Bilder, wobei jedes Bild mit WordNet-Synonymsätzen kommentiert ist. Es ist eine der größten verfügbaren Ressourcen zum Trainieren von Deep Learning-Modellen in Bilderkennungsaufgaben . Die Bilder von ImageNet sind nicht sein Eigentum – es stellt nur URLs und Miniaturansichten der Bilder bereit.
Details zum ImageNet-Datensatz
- Über 14 Millionen Bilder in hoher Auflösung.
- Etwa 22.000 WordNet-Synonymsätze (auch Synsets genannt). Ein Synset ist eine Phrase, die ein bedeutungsvolles Konzept in WordNet und ImageNet beschreibt.
- Über eine Million kommentierte Bilder mit Begrenzungsrahmen.
- Über 10.000 Synsets mit SIFT-Funktionen (Scale-Invariant Feature Transform).
- Über 1,2 Millionen Bilder mit SIFT-Funktionen.
Zeitleiste der ImageNet-Entwicklung
2006 – Der KI-Wissenschaftler Fei-Fei Li startet das ImageNet-Projekt. Die meisten KI-Forscher konzentrieren sich auf KI-Algorithmen, und Li wollte die Bilddatenbank zum Trainieren von Computer-Vision-Modellen erweitern und verbessern.
2007 – Li bespricht die Idee mit Professor Christiane Fellbaum (der Erfinderin von WordNet) und beginnt, ImageNet aus der Wortdatenbank von WordNet aufzubauen, indem er einige ihrer Funktionen nutzt.
2008 – Li arbeitet mit einem Team von Princeton-Kollegen am ImageNet; externe Mitarbeiter helfen bei der Klassifizierung der Bilder.
2009 – Die ImageNet-Datenbank wird erstmals auf der Conference on Computer Vision and Pattern Recognition (CVPR) in Florida vorgestellt.
2010 – Schnelle Fortschritte in der Bildverarbeitung. Die jährliche ImageNet Large Scale Visual Recognition Challenge (ILSVRC) ist eine Plattform, die es Forschern ermöglicht, ihre Algorithmen und Modelle zu bewerten. Sie bringt die Entwicklung von Deep-Learning-Modellen für Bildklassifizierung , Objekterkennung und andere Computer-Vision-Aufgaben . Die erste ILSVRC, eine Teilmenge von ImageNet, verwendete einen Satz von nur 1000 Bildkategorien (Klassen) und konnte 90 der 120 Hunderassen klassifizieren.
2011 – Eine gute Fehlerrate bei der ILSVRC-Bildklassifizierung beträgt 25 %.
2012 – Ein tiefes Convolutional Neural Net namens AlexNet erreicht eine Fehlerrate von 16 %.
2013 – Bahnbrechende Verbesserung im Bereich CV (Computer Vision), die Fehlerquote der Spitzenkräfte liegt unter 5 %. Dies markiert den Beginn eines branchenweiten Booms der künstlichen Intelligenz.
2015 – Microsoft-Forscher berichten, dass ihre Convolutional Neural Networks (CNNs) die menschlichen Fähigkeiten bei reinen ILSVRC-Aufgaben übertreffen.
2017 – Riesiger Sprung bei der Bildklassifizierung; bei Computer-Vision-Aufgaben wird eine Genauigkeit von über 95 % erreicht.
Funktionen des ImageNet-Datensatzes
ImageNet ist ein annotierter Bilddatensatz, der auf der WordNet-Hierarchie basiert. Die Hierarchie besteht aus Knoten, die die Kategorien definieren. Jede Kategorie wird durch ein Synset (eine Reihe aussagekräftiger Ausdrücke) beschrieben.
Jedes Bild in ImageNet ist mit einem oder mehreren Synsets annotiert, die Informationen für Trainingsalgorithmen liefern. Auf diese Weise werden die Modelle trainiert, verschiedene Objekte und ihre Beziehungen zu erkennen.
Die oben erwähnte ImageNet’s Challenge (ILSVRC) verwendet diesen Datensatz seit 2010 als Benchmark für die Bildklassifizierung. Der ImageNet-Datensatz enthält einen annotierten Trainingssatz und einen unannotierten Testsatz. Es gibt zwei Arten von Bildannotationen in ImageNet:
- Annotationen auf Bildebene weisen binäre Beschriftungen zu, um das Vorhandensein oder Fehlen einer bestimmten Objektklasse im Bild anzuzeigen. Beispielsweise: „Auf diesem Bild sind Hunde zu sehen“ oder „Auf diesem Bild sind keine Katzen zu sehen.“
- Annotationen auf Objektebene bieten enge Begrenzungsrahmen und Klassenbezeichnungen um Objektinstanzen in einem Bild. Beispiel: „An der Koordinate (30,45) befindet sich ein Hund mit einer Breite von 150 Pixeln und einer Höhe von 80 Pixeln.“
Die Nutzung und Anwendungen von ImageNet
Heute wird der ImageNet-Datensatz zum Trainieren und Testen von Modellen des maschinellen Lernens in verschiedenen CV-Aufgaben verwendet: Bildklassifizierung , Objekterkennung und Objektlokalisierung. Beliebte Deep-Learning-Architekturen wie ResNet , AlexNet und VGG wurden mit dem ImageNet-Datensatz entwickelt und getestet. Um ein Deep-Learning-Modell mit dem ImageNet-Datensatz zu trainieren, benötigen Sie nur wenige Zeilen Python-Code.
Der ImageNet-Datensatz enthält hochauflösende Bilder zu Tausenden von Objektkategorien und bietet einen vielfältigen und umfangreichen Datensatz für das Training und die Auswertung von CV-Modellen.
ImageNet wird auch zum Benchmarking und zur Bewertung von Computer Vision-Aufgaben verwendet, insbesondere für Bildklassifizierungs- und Objekterkennungsaufgaben. Einige aktuelle Forschungsarbeiten in diesen Bereichen, die unter Verwendung von ImageNet durchgeführt wurden, umfassen:
- Bildklassifizierung – NoisyNN: Untersuchung des Einflusses von Änderungen der Informationsentropie in Lernsystemen, veröffentlicht von Xiaowei Yu et al. (2023). Sie erreichten eine Genauigkeit von über 95 % durch die Verwendung von vorab trainiertem ImageNet (21K) mit 86M Parametern.
- Objekterkennung und Instanzsegmentierung – DeepMAD: Mathematischer Architekturentwurf für Deep Convolutional Neural Network, veröffentlicht von Xuan Shen et al., CVPR 2023. Sie haben Deep CNN auf vortrainiertes ImageNet-1K mit 24,2 Millionen Parametern angewendet und eine Genauigkeit von etwa 84 % erreicht.
- Selbstüberwachte Bildklassifizierung – DINOv2: Lernen robuster visueller Merkmale ohne Überwachung, veröffentlicht von Maxime Oquab et al. (2023). Sie haben die ViT-Large-Architektur auf ImageNet-22k mit 1,1 Milliarden Parametern angewendet und eine Genauigkeit von 84,5 % erreicht.
ImageNet-Klassifizierung mit Deep Convolutional Neural Networks
Die Objekterkennung ist eine recht komplexe Aufgabe, sodass das Problem selbst durch einen großen Datensatz wie ImageNet nicht spezifiziert werden kann. Das Modell sollte über Vorwissen verfügen, um die fehlenden Daten zu kompensieren, und CNNs sind eine Klasse solcher Modelle. Indem wir ihre Tiefe und Breite ändern, bestimmen wir ihre Kapazität. CNNs liefern auch recht genaue Annahmen über die Beschaffenheit von Bildern (d. h. Stationarität von Statistiken und Lokalität von Pixelabhängigkeiten).
Im Vergleich zu herkömmlichen Feedforward- Neuralnetzen mit ähnlicher Anzahl von Schichten verfügen CNNs über weniger Verbindungen und Parameter und sind daher leichter zu trainieren. Ihre theoretisch beste Leistung ist auch herkömmlichen neuronalen Netzen überlegen.
AlexNet beim ImageNet-Wettbewerb 2012
Alex Krizhevsky und sein Team (AlexNet) gewannen die ImageNet Challenge 2012 mit der Forschungsarbeit „ImageNet-Klassifizierung mit Deep Convolutional Neural Networks“. Diese Forschungsarbeit brachte bedeutende Beiträge: Sie trainierten eines der damals größten CNNs mit dem ImageNet-Datensatz, der in den ILSVRC-2010/2012-Challenges verwendet wurde, und erzielten die besten Ergebnisse, die mit diesen Datensätzen gemeldet wurden.
Das Team implementierte eine hochoptimierte GPU mit 2D-Faltung, einschließlich aller erforderlichen Schritte im CNN-Training, und veröffentlichte die Ergebnisse. Ihr CNN enthielt mehrere neue und ungewöhnliche Funktionen, die seine Leistung verbesserten und seine Trainingszeit verkürzten.
Die Größe ihres Netzwerks führte zu Überanpassung (selbst bei 1,2 Millionen gekennzeichneten Trainingsbeispielen), daher wendeten sie mehrere Techniken an, um dies zu verhindern. Ihr endgültiges CNN enthielt fünf Faltungsschichten und drei vollständig verbundene Schichten, und die Tiefe war ziemlich wichtig. Sie stellten fest, dass das Entfernen einer Faltungsschicht (von denen jede nicht mehr als 1 % der Parameter des Modells enthielt) zu einer schlechteren Leistung führte older women.
AlexNet-Struktur
Die Gesamtarchitektur ihres CNN ist in der folgenden Abbildung dargestellt – das Netz enthält acht Schichten mit Gewichten; die ersten fünf sind konvolutionell und die restlichen drei sind vollständig verbunden. Die Ausgabe der letzten vollständig verbundenen Schicht wird an einen 1000-Wege-Softmax weitergeleitet, der eine Verteilung über die 1000 Klassenbezeichnungen erzeugt. Dieses CNN maximierte das Ziel der multinomialen logistischen Regression, d. h. es maximierte den Durchschnitt über die Trainingsfälle, um eine korrekte Bezeichnung zuzuweisen.
Das Team berichtete über seine Ergebnisse zur Herbstversion 2009 von ImageNet mit 10.184 Kategorien und 8,9 Millionen Bildern. Aus diesem Datensatz verwendeten sie die Hälfte der Bilder zum Training und die andere Hälfte zum Testen.
Zu diesem Zeitpunkt gab es noch keinen etablierten Testsatz und die zufällige Aufteilung hatte nur geringen Einfluss auf die Ergebnisse. Sie erreichten mit diesem Datensatz die Top-1- und Top-5-Fehlerraten – 67,4 % und 40,9 %, die CNN oben mit einer zusätzlichen 6. Faltungsschicht über der letzten Pooling-Schicht erreichte. Ihre besten Ergebnisse mit diesem Datensatz waren 78,1 % und 60,9 %.
Dasselbe CNN, mit einer zusätzlichen sechsten Faltungsschicht, wurde verwendet, um die gesamte ImageNet-Herbstversion 2011 (15 Millionen Bilder, 22.000 Kategorien) zu klassifizieren. Nach der Feinabstimmung auf ImageNet-2012 ergab sich eine Fehlerrate von 16,6 %. Der zweitbeste Wettbewerbsbeitrag erreichte eine Fehlerrate von 26,2 % mit einem Ansatz, der die Vorhersagen mehrerer auf Fisher-Vektoren trainierter Klassifikatoren mittelt.
Die Zukunft von ImageNet
Im Laufe seines Bestehens wurde ImageNet erweitert und umfasst nun Millionen von Bildern in Tausenden von Kategorien. Dadurch wurden Innovationen vorangetrieben und neue Standards in diesem Bereich gesetzt. Die ImageNet-Daten stehen Forschern für die nichtkommerzielle Nutzung kostenlos zur Verfügung.
ImageNet hat Forschern von Anfang an einen gemeinsamen Satz von Bildern zur Verfügung gestellt, um ihre Modelle und Algorithmen zu vergleichen. Auf diese Weise hat es die Forschung im Bereich des maschinellen Lernens und tiefer neuronaler Netzwerke vorangetrieben und die Klassifizierung von Bildern und die Erledigung anderer Computer Vision-Aufgaben erleichtert.
ImageNet hat die Computer Vision-Forschung von frühen Ansätzen bis hin zu Deep Learning-Architekturen beeinflusst und prägt weiterhin die Aufgaben des Bildverständnisses und der Bildklassifizierung in der zeitgenössischen KI-Forschung und -Anwendung.
Viso Suite
Wir sind die Entwickler von Viso Suite – der Computer Vision-Plattform für Unternehmen. Viso Suite ermöglicht es Unternehmen auf der ganzen Welt, visuelle Daten zu beschaffen, Modelle zu trainieren und sie überall einzusetzen, ohne Code. Um mehr zu erfahren, buchen Sie eine Demo .