Schauen Sie sich das oben gezeigte Bild an. Wunderschön, nicht wahr? Das Interessante daran ist, dass es sich weder um ein Gemälde eines berühmten Künstlers noch um ein von einem Satelliten aufgenommenes Foto handelt. Das Bild, das Sie sehen, wurde mithilfe von Midjourney erstellt – einem proprietären Programm für künstliche Intelligenz, das Bilder aus Textbeschreibungen erstellt.
Wir haben einfach ein paar Worteingaben eingegeben und das Programm hat das Bild generiert, das diese Wörter darstellt. Dies wird als Text-zu-Bild-Übersetzung bezeichnet und ist eines von vielen Beispielen dafür, was Generative AI-Modelle leisten.
Der Hype um Generative AI ist riesig und wächst weiter. Gartner hat Generative AI in seinen Bericht „Emerging Technologies and Trends Impact Radar for 2022“ als eine der wirkungsvollsten und sich am schnellsten entwickelnden Technologien aufgenommen, die eine Produktivitätsrevolution mit sich bringt.
Hier sind einige der wichtigsten Gartner-Prognosen in Bezug auf Generative AI.
- Bis 2025 wird die Generative AI 10 Prozent aller Daten produzieren (derzeit sind es weniger als 1 Prozent) und 20 Prozent aller Testdaten für verbraucherorientierte Anwendungsfälle.
- Bis 2025 wird Generative AI in 50 Prozent der Initiativen zur Arzneimittelforschung und -entwicklung zum Einsatz kommen.
- Bis 2027 werden 30 Prozent der Hersteller Generative AI nutzen, um die Effektivität ihrer Produktentwicklung zu steigern.
Es wäre ein großes Versäumnis unsererseits, dem Thema nicht die gebührende Aufmerksamkeit zu schenken. Daher wird Ihnen in diesem Beitrag erklärt, was Generative AI-Modelle sind, wie sie funktionieren und welche praktischen Anwendungen sie in verschiedenen Bereichen haben.
Was ist Generative AI und warum sollte es Sie interessieren?
Generative AI bezieht sich auf unbeaufsichtigte und halbüberwachte Algorithmen des maschinellen Lernens, die es Computern ermöglichen, vorhandene Inhalte wie Text, Audio- und Videodateien, Bilder und sogar Code zu verwenden, um neue mögliche Inhalte zu erstellen. Die Hauptidee besteht darin, völlig originelle Artefakte zu generieren, die wie das Original aussehen.
Spaß beiseite: Generative AI ermöglicht es Computern, die zugrunde liegenden Muster der Eingabedaten zu abstrahieren, sodass das Modell neue Inhalte generieren oder ausgeben kann.
Derzeit gibt es zwei am weitesten verbreitete Modelle für Generative AI, und wir werden beide genauer unter die Lupe nehmen.
- Generative Adversarial Networks oder GANs – Technologien, die visuelle und multimediale Artefakte sowohl aus Bild- als auch aus Texteingabedaten erstellen können.
- Transformer-basierte Modelle – Technologien wie Generative Pre-Trained (GPT)-Sprachmodelle , die im Internet gesammelte Informationen nutzen können, um Textinhalte von Website-Artikeln über Pressemitteilungen bis hin zu Whitepapers zu erstellen.
In der Einleitung haben wir ein paar coole Einblicke gegeben, die die rosige Zukunft der Generative AI zeigen. Das Potenzial der Generative AI und insbesondere der GANs ist riesig, da diese Technologie lernen kann, jede beliebige Datenverteilung nachzuahmen. Das heißt, man kann ihr beibringen, Welten zu erschaffen, die unserer eigenen unheimlich ähnlich sind, und das in jedem Bereich.
In der Logistik und im Transportwesen , die in hohem Maße auf Ortungsdienste angewiesen sind, kann Generative AI verwendet werden, um Satellitenbilder präzise in Kartenansichten umzuwandeln und so die Erkundung noch unerforschter Orte zu ermöglichen.
In der Reisebranche kann Generative AI eine große Hilfe bei Gesichtserkennungs- und -verifizierungssystemen an Flughäfen sein, indem sie aus zuvor aus verschiedenen Winkeln aufgenommenen Fotos ein Vollbild eines Passagiers erstellt und umgekehrt.
Im Gesundheitswesen können Röntgen- oder CT-Scans mithilfe der Skizzen-zu-Foto-Übersetzung unter Verwendung von GANs in fotorealistische Bilder umgewandelt werden. Auf diese Weise können gefährliche Krankheiten wie Krebs dank einer besseren Bildqualität im Anfangsstadium diagnostiziert werden.
Im Marketing kann Generative AI bei der Kundensegmentierung helfen, indem sie aus den verfügbaren Daten lernt, die Reaktion einer Zielgruppe auf Anzeigen und Marketingkampagnen vorherzusagen. Sie kann auch Outbound-Marketing-Botschaften synthetisch generieren, um Upselling- und Cross-Selling -Strategien zu verbessern.
Obwohl es so aussehen mag, vollbringt Generative AI all diese fantastischen Dinge nicht durch Zauberei: Sie muss modelliert werden, damit sie in der Lage ist, Artefakte aus realen Inhalten zu erstellen. Und so geht’s.
Diskriminative vs. generative Modellierung
Um die Idee hinter der Generative AI zu verstehen, müssen wir uns die Unterschiede zwischen diskriminativer und generativer Modellierung ansehen.
Diskriminative Modellierung wird verwendet, um vorhandene Datenpunkte (z. B. Bilder von Katzen und Meerschweinchen in entsprechende Kategorien) zu klassifizieren. Sie gehört hauptsächlich zu überwachten maschinellen Lernaufgaben.
Generative Modellierung versucht, die Datensatzstruktur zu verstehen und ähnliche Beispiele zu generieren (z. B. ein realistisches Bild eines Meerschweinchens oder einer Katze zu erstellen). Sie gehört hauptsächlich zu unüberwachten und halbüberwachten maschinellen Lernaufgaben.
Je stärker neuronale Netzwerke in unser Leben eindringen, desto stärker werden die Bereiche der diskriminativen und generativen Modellierung. Lassen Sie uns beides genauer besprechen.
Diskriminative Modellierung
Die meisten Modelle des maschinellen Lernens werden verwendet, um Vorhersagen zu treffen. Diskriminative Algorithmen versuchen, Eingabedaten anhand eines bestimmten Satzes von Merkmalen zu klassifizieren und eine Bezeichnung oder Klasse vorherzusagen, zu der ein bestimmtes Datenbeispiel gehört.
Nehmen wir an, wir haben Trainingsdaten, die mehrere Bilder von Katzen und Meerschweinchen enthalten. Sie werden auch als Beispiele bezeichnet. Jedes Beispiel hat Eingabemerkmale (X) und Ausgabeklassenbezeichnungen (Y). Und wir haben auch ein neuronales Netz, um das Bild zu betrachten und zu sagen, ob es sich um ein Meerschweinchen oder eine Katze handelt, wobei wir auf die Merkmale achten, die sie unterscheiden.
Beschränken wir den Unterschied zwischen Katzen und Meerschweinchen auf nur zwei Merkmale x (zum Beispiel „das Vorhandensein des Schwanzes“ und „die Größe der Ohren“). Da jedes Merkmal eine Dimension ist, ist es einfach, sie in einem zweidimensionalen Datenraum darzustellen. In der obigen Visualisierung sind die blauen Punkte Meerschweinchen und die roten Punkte Katzen. Die Linie stellt die Entscheidungsgrenze dar bzw. dass das diskriminative Modell gelernt hat, Katzen von Meerschweinchen anhand dieser Merkmale zu unterscheiden.
Wenn dieses Modell bereits trainiert ist und verwendet wird, um den Unterschied zwischen Katzen und Meerschweinchen zu erkennen, „erinnert“ es sich in gewissem Sinne nur daran, wie das Objekt aussieht, basierend auf dem, was es bereits gesehen hat.
Wenn Sie dem Modell also ein Bild aus einer völlig anderen Klasse zeigen, zum Beispiel eine Blume, kann es mit einer gewissen Wahrscheinlichkeit erkennen, dass es sich um eine Katze handelt. In diesem Fall wird die vorhergesagte Ausgabe (ŷ) mit der erwarteten Ausgabe (y) aus dem Trainingsdatensatz verglichen. Basierend auf dem Vergleich können wir herausfinden, wie und was in einer ML-Pipeline aktualisiert werden sollte, um genauere Ergebnisse für bestimmte Klassen zu erzielen.
Um es noch einmal zusammenzufassen: Das diskriminative Modell komprimiert gewissermaßen Informationen über die Unterschiede zwischen Katzen und Meerschweinchen, ohne zu versuchen zu verstehen, was eine Katze und was ein Meerschweinchen ist.
Generative Modellierung
Generative Algorithmen machen das genaue Gegenteil – anstatt ein Label vorherzusagen, das bestimmten Merkmalen gegeben wird, versuchen sie, Merkmale vorherzusagen, denen ein bestimmtes Label gegeben wird. Diskriminative Algorithmen interessieren sich für die Beziehungen zwischen x und y; generative Modelle interessieren sich dafür, wie man x erhält.
Mathematisch gesehen ermöglicht uns die generative Modellierung, die Wahrscheinlichkeit zu erfassen, dass x und y zusammen auftreten. Sie lernt die Verteilung einzelner Klassen und Merkmale, nicht die Grenze.
Um auf unser Beispiel zurückzukommen: Generative Modelle helfen dabei, die Frage zu beantworten, was die „Katze selbst“ oder das „Meerschweinchen selbst“ ist. Die Visualisierung zeigt, dass ein generatives Modell nicht nur alle Schwanz- und Ohrmerkmale beider Arten vorhersagen kann, sondern auch andere Merkmale einer Klasse. Das heißt, es lernt Merkmale und ihre Beziehungen, um eine Vorstellung davon zu bekommen, wie diese Tiere im Allgemeinen aussehen.
Und wenn das Modell weiß, welche Arten von Katzen und Meerschweinchen es im Allgemeinen gibt, sind auch ihre Unterschiede bekannt. Solche Algorithmen können lernen, Bilder von Katzen und Meerschweinchen nachzubilden, auch von solchen, die nicht im Trainingsset enthalten waren.
Ein generativer Algorithmus zielt auf eine ganzheitliche Prozessmodellierung ab, ohne Informationen zu verwerfen. Sie fragen sich vielleicht: „Warum brauchen wir überhaupt diskriminative Algorithmen?“ Tatsache ist, dass ein spezifischerer diskriminativer Algorithmus das Problem oft besser löst als ein allgemeinerer generativer.
Dennoch gibt es eine breite Klasse von Problemen, bei denen Sie mit generativer Modellierung beeindruckende Ergebnisse erzielen können. Zum Beispiel bahnbrechende Technologien wie GANs und transformatorbasierte Algorithmen.
Generative kontradiktorische Netzwerke
Ein Generative Adversarial Network oder GAN ist ein maschineller Lernalgorithmus, der zwei neuronale Netzwerke – Generator und Diskriminator – gegeneinander antreten lässt, daher der Teil „adversarial“. Der Wettbewerb zwischen zwei neuronalen Netzwerken nimmt die Form eines Nullsummenspiels an, bei dem der Gewinn eines Agenten der Verlust eines anderen Agenten ist.
GANs wurden 2014 von Jan Goodfellow und seinen Kollegen an der Universität Montreal erfunden. Sie beschrieben die GAN-Architektur in dem Artikel „ Generative Adversarial Networks “. Seitdem gab es viel Forschung und praktische Anwendungen, wodurch GANs zum beliebtesten Modell der Generative AI wurden.
In ihrer Architektur haben GANs zwei Untermodelle:
- Generator – ein neuronales Netz, dessen Aufgabe es ist, aus einem zufälligen Eingabevektor (einer Liste mathematischer Variablen, deren Wert jeweils unbekannt ist) falsche Eingaben oder falsche Stichproben zu erstellen; und
- Diskriminator – ein neuronales Netz, dessen Aufgabe es ist, eine gegebene Probe zu nehmen und zu entscheiden, ob es sich um eine gefälschte Probe von einem Generator oder eine echte Probe aus der Domäne handelt.
Der Diskriminator ist im Grunde ein binärer Klassifikator, der Wahrscheinlichkeiten zurückgibt – eine Zahl zwischen 0 und 1. Je näher das Ergebnis an 0 liegt, desto wahrscheinlicher ist es, dass die Ausgabe gefälscht ist. Und umgekehrt zeigen Zahlen näher an 1 eine höhere Wahrscheinlichkeit, dass die Vorhersage wahr ist.
Sowohl ein Generator als auch ein Diskriminator werden häufig als CNNs (Convolutional Neural Networks) implementiert, insbesondere bei der Arbeit mit Bildern.
Die kontroverse Natur von GANs liegt also in einem spieltheoretischen Szenario, in dem das Generatornetzwerk gegen den Gegner antreten muss. Das Generatornetzwerk produziert direkt gefälschte Proben. Sein Gegner, das Diskriminatornetzwerk, versucht, zwischen Proben aus den Trainingsdaten und Proben aus dem Generator zu unterscheiden. In diesem Szenario gibt es immer einen Gewinner und einen Verlierer. Das versagende Netzwerk wird aktualisiert, während sein Rivale unverändert bleibt.
GANs gelten als erfolgreich, wenn ein Generator eine gefälschte Probe erstellt, die so überzeugend ist, dass sie einen Diskriminator und auch Menschen täuschen kann. Aber das Spiel ist damit noch nicht vorbei, denn es ist an der Zeit, den Diskriminator zu aktualisieren und zu verbessern. Wiederholen.
Transformatorbasierte Modelle
Transformer wurden erstmals 2017 in einem Artikel von Google beschrieben. Dabei handelt es sich um leistungsstarke tiefe neuronale Netzwerke, die Kontext und damit Bedeutung lernen, indem sie Beziehungen in sequenziellen Daten wie den Wörtern in diesem Satz verfolgen. Deshalb wird diese Technologie häufig in NLP-Aufgaben (Natural Language Processing) verwendet . Einige der bekanntesten Beispiele für Transformer sind GPT-3 und LaMDA . GPT-3 ist eine Reihe von Deep Learning-Sprachmodellen, die vom OpenAI-Team entwickelt wurden, einem Forschungslabor für künstliche Intelligenz mit Sitz in San Francisco. GPT-3 steht für Generative Pre-Trained Transformer Model. Die 3 bedeutet hier, dass dies die dritte Generation dieser Modelle ist. Das Modell kann Text produzieren, der aussieht, als wäre er von einem Menschen geschrieben worden: Es kann Gedichte schreiben, E-Mails verfassen und sogar Witze reißen. LaMDA (Language Model for Dialogue Applications) ist eine Familie von konversationellen neuronalen Sprachmodellen, die auf Google Transformer basieren, einer Open-Source-Architektur neuronaler Netzwerke für natürliches Sprachverständnis. Der Transformer ist etwas, das eine Sequenz in eine andere umwandelt. Es handelt sich um eine Art halbüberwachtes Lernen, d. h. sie werden mithilfe eines großen, unbeschrifteten Datensatzes unbeaufsichtigt vorab trainiert und anschließend durch überwachtes Training feinabgestimmt, um eine bessere Leistung zu erzielen.
Ein typischer Transformer besteht aus zwei Teilen.
Der Encoder bearbeitet die Eingabesequenz. Er extrahiert alle Merkmale aus einer Sequenz, konvertiert sie in Vektoren (z. B. Vektoren, die die Semantik und Position eines Wortes in einem Satz darstellen) und übergibt sie dann an den Decoder.
Der Decoder bearbeitet die Zielausgabesequenz. Jeder Decoder empfängt die Ausgaben der Encoderschicht, leitet daraus den Kontext ab und generiert die Ausgabesequenz.
Sowohl der Encoder als auch der Decoder im Transformer bestehen aus mehreren übereinander gestapelten Encoderblöcken. Die Ausgabe eines Blocks wird zur Eingabe eines anderen.
Transformer arbeiten durch Sequenz-zu-Sequenz-Lernen, wobei der Transformer eine Sequenz von Token, z. B. Wörter in einem Satz, nimmt und das nächste Wort in der Ausgabesequenz vorhersagt. Dies geschieht durch iterierende Encoderschichten.
Transformermodelle verwenden sogenannte Aufmerksamkeits- oder Selbstaufmerksamkeitsmechanismen, um subtile Wege zu erkennen, auf denen selbst weit entfernte Datenelemente in einer Reihe einander beeinflussen und voneinander abhängen.
Diese Techniken liefern Kontext um Elemente in der Eingabesequenz. Anstatt also jedes Wort einzeln zu betrachten, versucht der Transformator, den Kontext zu identifizieren, der jedem Wort der Sequenz Bedeutung verleiht.
Darüber hinaus können Transformatoren mehrere Sequenzen parallel ausführen, was die Trainingsphase beschleunigt.
Arten Generative AI-Anwendungen mit Beispielen
Generative AI hat eine Fülle praktischer Anwendungen in verschiedenen Bereichen wie der Computervision, wo sie die Datenerweiterungstechnik verbessern kann. Das Potenzial der Verwendung generativer Modelle ist wirklich grenzenlos. Nachfolgend finden Sie einige prominente Anwendungsfälle, die bereits umwerfende Ergebnisse liefern. Oder sehen Sie sich unser Video zu diesem Thema an.
Bilderzeugung
Der bekannteste Anwendungsfall Generative AI ist die Erstellung gefälschter Bilder, die wie echte aussehen. So veröffentlichte beispielsweise Tero Karras – ein renommierter Wissenschaftler bei NVIDIA Research – 2017 ein Papier mit dem Titel „ Progressives Wachstum von GANs für verbesserte Qualität, Stabilität und Variation “.
In diesem Artikel demonstrierte er die Generierung realistischer Fotos von menschlichen Gesichtern. Das Modell wurde anhand von Eingabedaten trainiert, die echte Bilder von Prominenten enthielten, und erstellte dann neue realistische Fotos von Gesichtern, die einige Merkmale von Prominenten aufwiesen und sie vertraut erscheinen ließen. Nehmen wir zum Beispiel das Mädchen auf dem zweiten Bild oben rechts sieht ein bisschen wie Beyoncé aus, aber gleichzeitig können wir sehen, dass es nicht die Popsängerin ist.
Bild-zu-Bild-Konvertierung
Wie der Name schon sagt, wandelt Generative AI hier einen Bildtyp in einen anderen um. Es gibt eine Reihe von Bild-zu-Bild-Übersetzungsvarianten.
Stilübertragung. Bei dieser Aufgabe wird der Stil eines berühmten Gemäldes extrahiert und auf ein anderes Bild angewendet. Wir können beispielsweise ein echtes Bild, das wir in Köln gemacht haben, nehmen und es in den Malstil von Van Gogh umwandeln.
Von Skizzen zu realistischen Bildern. Hier beginnt ein Benutzer mit einer spärlichen Skizze und der gewünschten Objektkategorie. Das Netzwerk empfiehlt dann die plausible(n) Vervollständigung(en) und zeigt ein entsprechendes synthetisiertes Bild.
Einer der Artikel, in denen diese Technologie erörtert wird, ist „ DeepFaceDrawing: Deep Generation of Face Images from Sketches “. Er wurde 2020 von einem Forscherteam aus China veröffentlicht. Er beschreibt, wie einfache Porträtskizzen in realistische Fotos von Menschen umgewandelt werden können.
MRT in CT-Scans. Im Gesundheitswesen kann die Umwandlung eines MRT-Bildes in einen CT-Scan ein Beispiel sein, da für einige Therapien Bilder beider Modalitäten erforderlich sind. Aber CT, insbesondere wenn eine hohe Auflösung erforderlich ist, erfordert eine ziemlich hohe Strahlendosis für den Patienten. Daher kann man nur ein MRT durchführen und daraus ein CT-Bild synthetisieren.
Text-zu-Bild-Übersetzung
Bei diesem Ansatz werden aus Textbeschreibungen einfacher Objekte verschiedene Bilder (realistisch, gemäldeähnlich usw.) erzeugt. Erinnern Sie sich an unser vorgestelltes Bild? Das ist ein Beispiel für die Übersetzung von Text in Bild. Die beliebtesten Programme, die auf Modellen Generative AI beruhen, sind das bereits erwähnte Midjourney, Dall-e von OpenAI und Stable Diffusion .
Um das unten gezeigte Bild zu erstellen, haben wir Stable Diffusion mit den folgenden Wortvorschlägen versorgt : ein Traum aus vergangenen Zeiten, Ölgemälde, rot blau weiß, Leinwand, Aquarell, Koi-Fisch und Tiere . Das Ergebnis ist nicht perfekt, aber dennoch ziemlich beeindruckend, wenn man bedenkt, dass wir keinen Zugriff auf die ursprüngliche Betaversion mit einem größeren Funktionsumfang hatten, sondern ein Drittanbietertool verwendet haben data engineering.
Die Ergebnisse all dieser Programme sind ziemlich ähnlich. Allerdings bemerken einige Benutzer, dass Midjourney im Durchschnitt etwas ausdrucksvoller zeichnet und Stable Diffusion mit den Standardeinstellungen den Anforderungen klarer folgt.
Text zu Sprache
Forscher haben GANs auch verwendet, um aus Texteingaben synthetische Sprache zu erzeugen. Fortschrittliche Deep-Learning-Technologien wie Amazon Polly und DeepMind synthetisieren natürlich klingende menschliche Sprache. Solche Modelle arbeiten direkt mit Zeichen- oder Phonem-Eingabesequenzen und erzeugen Rohsprach-Audioausgaben.
Audiogenerierung
Audiodaten können auch von Generative AI verarbeitet werden. Dazu müssen Sie zunächst Audiosignale in bildähnliche zweidimensionale Darstellungen, sogenannte Spektrogramme , umwandeln . Auf diese Weise können wir Algorithmen, die speziell für die Arbeit mit Bildern entwickelt wurden, wie CNNs, für unsere Audioaufgabe verwenden.
Mit diesem Ansatz können Sie die Stimmen von Personen transformieren oder den Stil/das Genre eines Musikstücks ändern. Sie können beispielsweise ein Musikstück von einem klassischen in einen Jazz-Stil „übertragen“.
Im Jahr 2022 erwarb Apple das britische Startup AI Music, um die Audiofunktionen von Apple zu verbessern. Die vom Startup entwickelte Technologie ermöglicht die Erstellung von Soundtracks mit kostenloser öffentlicher Musik, die von den KI-Algorithmen des Systems verarbeitet wird. Die Hauptaufgabe besteht darin, Audioanalysen durchzuführen und „dynamische“ Soundtracks zu erstellen, die sich je nach Interaktion der Benutzer ändern können. Das heißt, die Musik kann sich je nach Atmosphäre der Spielszene oder je nach Intensität des Trainings des Benutzers im Fitnessstudio ändern.
Videogenerierung
Video ist eine Reihe bewegter visueller Bilder, daher können Videos logischerweise ähnlich wie Bilder generiert und konvertiert werden. Einer der bekanntesten Anwendungsfälle ist die Vorhersage von Videobildern. Wenn wir ein bestimmtes Videobild aus einem Videospiel nehmen, können GANs verwendet werden, um vorherzusagen, wie das nächste Bild in der Sequenz aussehen wird, und es zu generieren.
NVIDIA hat als Vorreiter bei Generative AI-Fortschritten DLSS (Deep Learning Super Sampling) vorgestellt. Dabei handelt es sich um eine neuronale Grafiktechnologie zur Rekonstruktion von Bildern. Die 3. Generation von DLSS steigert die Leistung aller GeForce RTX-GPUs mithilfe von KI, um völlig neue Bilder zu erstellen und durch Bildrekonstruktion eine höhere Auflösung anzuzeigen.
Im Grunde gibt es Bilder mit höherer Auflösung aus einem Eingang mit niedrigerer Auflösung aus. DLSS sampelt mehrere Bilder mit niedrigerer Auflösung und verwendet Bewegungsdaten und Feedback von vorherigen Bildern, um Bilder in nativer Qualität zu rekonstruieren.
Aber das ist noch nicht alles.
Das Sahnehäubchen? Es gibt Artefakte wie PAC-MAN und GTA, die einem echten Gameplay ähneln und vollständig von künstlicher Intelligenz generiert werden.
In diesem Video können Sie sehen, wie eine Person die Version von GTA 5 mit einem neuronalen Netzwerk spielt. Die Spielumgebung wurde mithilfe eines GameGAN-Forks auf Grundlage der GameGAN-Forschung von NVIDIA erstellt.
Verbesserung der Bild- und Videoauflösung
Wenn wir ein Bild mit niedriger Auflösung haben, können wir mit einem GAN eine Version des Bildes mit viel höherer Auflösung erstellen, indem wir herausfinden, was jedes einzelne Pixel ist, und davon dann eine höhere Auflösung erstellen.
Wir können Bilder aus alten Filmen verbessern, sie auf 4K und mehr hochskalieren, mehr Bilder pro Sekunde erzeugen (z. B. 60 fps statt 23) und Schwarzweißfilmen Farbe hinzufügen.
Generierung synthetischer Daten
Obwohl wir in einer Welt leben, in der ständig große Datenmengen generiert werden, besteht weiterhin das Problem, genügend Daten zum Trainieren von ML-Modellen zu erhalten. Wenn wir „genug Daten“ sagen, meinen wir genügend qualitativ hochwertige Daten. Das Erfassen von genügend Beispielen zum Trainieren ist eine zeitaufwändige, kostspielige und oft unmögliche Aufgabe. Die Lösung für dieses Problem können synthetische Daten sein , die einer Generative AI unterliegen.
Wie bereits erwähnt, erzielt NVIDIA viele Durchbrüche bei Generative AI-Technologien. Einer davon ist ein neuronales Netzwerk, das anhand von Videos von Städten trainiert wird, um städtische Umgebungen darzustellen.
Solche synthetisch erstellten Daten können bei der Entwicklung selbstfahrender Autos hilfreich sein, da sie generierte Trainingsdatensätze aus virtuellen Welten beispielsweise zur Fußgängererkennung verwenden können.
Die dunkle Seite der Generative AI: Ist sie so dunkel?
Unabhängig von der Technologie kann sie sowohl für gute als auch für schlechte Zwecke eingesetzt werden. Generative AI ist natürlich keine Ausnahme. Es gibt derzeit einige Herausforderungen.
Pseudobilder und Deepfakes. Die Deepfake-Technologie wurde ursprünglich zu Unterhaltungszwecken entwickelt und hat bereits einen schlechten Ruf. Da sie über Software wie FakeApp, Reface und DeepFaceLab für alle Benutzer öffentlich verfügbar ist, werden Deepfakes von Menschen nicht nur zum Spaß, sondern auch für böswillige Zwecke eingesetzt.
Im März 2022 wurde beispielsweise in den ukrainischen Nachrichten ein Deepfake-Video des ukrainischen Präsidenten Wolodymyr Selenskyj ausgestrahlt, in dem er sein Volk zur Kapitulation aufforderte. Dieses wurde gehackt. Obwohl mit bloßem Auge zu erkennen war, dass das Video gefälscht war, gelangte es in die sozialen Medien und führte zu zahlreichen Manipulationen.
Schwer zu kontrollieren. Wenn wir das sagen, meinen wir nicht, dass sich morgen Maschinen gegen die Menschheit erheben und die Welt zerstören werden. Seien wir ehrlich, wir sind selbst ziemlich gut darin. Aber aufgrund der Tatsache, dass Generative AI selbst lernen kann, ist ihr Verhalten schwer zu kontrollieren. Die Ergebnisse können oft weit von Ihren Erwartungen entfernt sein.
Aber wie wir wissen, könnte sich Technologie ohne Herausforderungen nicht weiterentwickeln und wachsen. Darüber hinaus können Dinge wie verantwortungsvolle KI
die Nachteile von Innovationen wie Generative AI vermeiden oder vollständig reduzieren. Übrigens, keine Sorge: Der Beitrag, den Sie gerade gelesen haben, wurde nicht von KI generiert.
Oder doch?