Informieren Sie sich über die neuen Updates für Stable Diffusion und entdecken Sie die Funktionen des Text-zu-Bild-Modells der Version 3.
Stability AI hat eine frühe Vorschau von Stable Diffusion 3 angekündigt , ihrem generativen KI-Modell zur Text-zu-Bild-Erstellung. Anders als bei der Text-zu-Video-Ankündigung von OpenAI für Sora letzte Woche gab es nur begrenzte Demonstrationen der neuen Funktionen des Modells, aber einige Details wurden bereitgestellt. Hier untersuchen wir, was die Ankündigung bedeutet, wie das neue Modell funktioniert und welche Auswirkungen dies auf die Weiterentwicklung der Bilderzeugung hat.
Was ist stabile Diffusion 3?
Stable Diffusion ist eine Reihe von generativen KI-Modellen, die Text in Bilder umwandeln. Das heißt, Sie schreiben eine Eingabeaufforderung, in der Sie beschreiben, was Sie sehen möchten, und das Modell erstellt ein Bild, das Ihrer Beschreibung entspricht. Für den einfachen Zugriff auf die KI gibt es eine Web-Benutzeroberfläche .
Ein wesentlicher Unterschied zu OpenAIs konkurrierender DALL·E-Bildgenerierungs-KI besteht darin, dass sie „offene Gewichte“ hat. Das heißt, die Details des neuronalen Netzwerks, das die Berechnungen des Modells bereitstellt, sind öffentlich verfügbar. Das bedeutet, dass eine gewisse Transparenz in der Funktionsweise des Modells besteht und es Forschern möglich ist, die Arbeit von Stability AI anzupassen und darauf aufzubauen.
Stable Diffusion 3 ist kein einzelnes Modell, sondern eine ganze Modellfamilie mit Größen von 800 Millionen bis 8 Milliarden Parametern. Mehr Parameter führen zu einer höheren Ausgabequalität, haben aber den Nebeneffekt, dass Bilder teurer sind und ihre Erstellung länger dauert. Versionen des Modells mit weniger Parametern eignen sich besser zum Erstellen einfacher Bilder, und Versionen mit mehr Parametern eignen sich besser zum Erstellen qualitativ hochwertigerer oder komplexerer Bilder.
Wie funktioniert Stable Diffusion 3?
Stable Diffusion 3 verwendet eine Diffusionstransformatorarchitektur, die der von Sora verwendeten ähnelt. Frühere Versionen von Stable Diffusion – und die meisten aktuellen KIs zur Bildgenerierung – verwenden ein Diffusionsmodell. Große Sprachmodelle zur Textgenerierung wie GPT verwenden eine Transformatorarchitektur. Die Möglichkeit, die beiden Modelle zu kombinieren, ist eine neue Innovation und verspricht, das Beste aus beiden Architekturen zu nutzen.
Diffusionsmodelle sind gut darin, Details in kleinen Bereichen zu erzeugen, sind aber schlecht darin, das Gesamtlayout eines Bildes zu generieren. Umgekehrt sind Transformatoren gut darin, das Layout zu erstellen, aber schlecht darin, Details zu erzeugen. Daher ist es wahrscheinlich, dass Stable Diffusion einen Transformator verwendet, um das Gesamtbild zu gestalten, und dann Diffusoren verwendet, um Patches zu generieren.
Das bedeutet, dass wir erwarten können, dass Stable Diffusion 3 bei der Organisation komplexer Szenen eine bessere Leistung erbringt als seine Vorgänger.
In der Ankündigung heißt es auch, dass Stable Diffusion 3 eine Technik namens Flow Matching verwendet . Dies ist eine rechnerisch effizientere Methode zum Trainieren von Modellen und zum Erstellen von Bildern aus diesen Modellen als die aktuelle Diffusionspfadtechnik. Das bedeutet, dass die Erstellung der KI billiger ist und die Erstellung von mit der KI erstellten Bildern ebenfalls billiger ist, was zu geringeren Kosten für die KI führt.
Was sind die Einschränkungen von Stable Diffusion 3?
Eine der aktuellen Einschränkungen der KI zur Bildgenerierung ist die Fähigkeit, Text zu generieren. Insbesondere begann die Ankündigung der Stabilitäts-KI mit einem Bild, das den Namen des Modells „Stable Diffusion 3“ enthielt. Die Positionierung der Buchstaben im Text ist gut, aber nicht perfekt: Beachten Sie, dass der Abstand zwischen dem „B“ und dem „L“ in „Stable“ größer ist als der Abstand zwischen dem „L“ und dem „E“. Ebenso liegen die beiden „F“ in „Diffusion“ zu nahe beieinander. Insgesamt ist dies jedoch eine spürbare Verbesserung gegenüber der vorherigen Modellgeneration.
Ein weiteres Problem mit den Modellen ist, dass, da Diffusoren Bildbereiche separat erzeugen, Inkonsistenzen zwischen Bildbereichen auftreten können. Dies ist vor allem dann ein Problem, wenn versucht wird, realistische Bilder zu erzeugen. Der Ankündigungsbeitrag enthielt nicht viele realistische Beispiele, aber ein Bild eines Busses in einer Stadtstraße zeigt einige Fälle dieser Probleme. Beachten Sie, dass der Schatten unter dem Bus darauf hindeutet, dass Licht von hinter dem Bus kommt, aber der Schatten eines Gebäudes auf der Straße deutet darauf hin, dass Licht von der linken Seite des Bildes kommt. Ebenso ist die Positionierung der Fenster im Gebäude oben rechts im Bild in verschiedenen Bereichen des Gebäudes leicht inkonsistent. Der Bus hat auch keinen Fahrer, obwohl dies durch genauere Hinweise behoben werden kann.
Wie kann ich auf Stable Diffusion 3 zugreifen?
Stable Diffusion 3 befindet sich in einem „Early Preview“-Zustand. Das bedeutet, dass es nur Forschern zu Testzwecken zur Verfügung steht. Der Vorschaustatus soll es Stability AI ermöglichen, Feedback zur Leistung und Sicherheit des Modells zu sammeln, bevor es der Öffentlichkeit zugänglich gemacht wird.
In die Warteliste für den Zugang zur KI können Sie sich hier eintragen .
Was sind die Anwendungsfälle von Stable Diffusion 3?
Künstliche Intelligenzen zur Bildgenerierung haben bereits viele Anwendungsfälle gefunden, von Illustrationen über Grafikdesign bis hin zu Marketingmaterialien. Stable Diffusion verspricht, auf die gleiche Weise eingesetzt werden zu können, mit dem zusätzlichen Vorteil, dass es wahrscheinlich in der Lage sein wird, Bilder mit komplexeren Layouts zu erstellen.
Welche Risiken birgt Stable Diffusion 3?
Der Datensatz, mit dem Stable Diffusion trainiert wurde, enthielt einige urheberrechtlich geschützte Bilder, was zu mehreren noch nicht beigelegten Rechtsstreitigkeiten geführt hat . Der Ausgang dieser Rechtsstreitigkeiten ist unklar, aber es ist theoretisch möglich, dass alle von Stable Diffusion erstellten Bilder ebenfalls als urheberrechtlich geschützt angesehen werden.
Was wissen wir noch nicht?
Die vollständigen technischen Details von Stable Diffusion 3 wurden noch nicht veröffentlicht, und insbesondere gibt es keine Möglichkeit, die Leistung der KI zu testen. Sobald das Modell öffentlich verfügbar ist und Benchmarks festgelegt sind, wird es möglich sein, festzustellen, wie groß die Verbesserung der KI gegenüber früheren Modellen ist. Andere Faktoren wie die Zeit und die Kosten zur Generierung eines Bildes werden ebenfalls deutlich.
Eine technische Entwicklung, die von OpenAI in ihrem DALL·E 3-Papier stark gefördert wurde , aber in der Ankündigung von Stability AI nicht erwähnt wurde, war die Neuuntertitelung. Dies ist eine Form der automatischen Eingabeaufforderungstechnik, bei der der vom Benutzer geschriebene Text neu strukturiert und mit zusätzlichen Details versehen wird, um dem Modell klarere Anweisungen zu geben. Es ist nicht bekannt, ob Stable Diffusion 3 diese Technik verwendet oder nicht transformers.
Abschließende Gedanken
Stable Diffusion 3 verspricht einen weiteren Fortschritt in der Entwicklung der generativen Text-zu-Bild-KI. Sobald die KI öffentlich veröffentlicht ist, können wir sie weiter testen und neue Anwendungsfälle entdecken. Wenn Sie unbedingt in die Welt der generativen KI einsteigen möchten, hilft Ihnen unser Skill Track „AI Fundamentals“, sich mit maschinellem Lernen, Deep Learning, NLP, generativen Modellen und mehr vertraut zu machen.
Weitere Ressourcen zu den neuesten Entwicklungen in der Welt der KI finden Sie in der folgenden Liste: