Die Gemini API von Google optimiert den Zugriff auf den umfangreichen Datensatz von Google und ermöglicht Entwicklern die nahtlose Integration von Such-, Analyse- und anderen Funktionen in ihre Anwendungen.
Google hat kürzlich sein Bard-KI-Modell auf das brandneue Gemini aktualisiert. Gemini ist möglicherweise eines der leistungsfähigsten und allgemeinsten KI-Modelle , die Google bisher entwickelt hat. Es hat drei Modelle für Gemini 1.0 bereitgestellt: Gemini Ultra, Gemini Pro und Gemini Nano.
Was ist Googles Gemini?
Gemini ist das neueste allgemeine KI-Modell (oder der neueste Dienst) von Google, das auf Multimodalität ausgelegt ist.
Gemini ist ein verallgemeinertes KI-Modell, das verschiedene Arten von Informationen verarbeiten kann, darunter Text, Code, Audio, Bilder und Videos.
Dieses Mal hat Google beschlossen, drei verschiedene Gemini-KI-Modelle zu veröffentlichen: Gemini Ultra, Gemini Pro und Gemini Nano, jeweils mit einer eigenen Beschreibung, und zitiert dabei aus ihrem Gemini-1-Bericht :
- Gemini Ultra: Das leistungsfähigste Gemini-Modell, das modernste Leistung für eine breite Palette hochkomplexer Aufgaben liefert, darunter logisches Denken und multimodale Aufgaben. Dank der Gemini-Architektur kann es effizient und skalierbar auf TPU-Beschleunigern ausgeführt werden.
- Gemini Pro: Ein leistungsoptimiertes Modell in Bezug auf Kosten und Latenz, das für eine Vielzahl von Aufgaben eine signifikante Leistung bietet. Dieses Modell weist eine starke Argumentationsleistung und umfassende multimodale Fähigkeiten auf.
- Gemini Nano: Googles effizientestes Modell, das für die Ausführung auf Geräten konzipiert ist. Sie haben zwei Versionen von Nano trainiert, mit 1,8 B (Nano-1) und 3,25 B (Nano-2) Parametern, die jeweils auf Geräte mit wenig bzw. viel Speicher abzielen. Nano wird durch Destillation aus größeren Gemini-Modellen trainiert und für die Bereitstellung 4-Bit quantisiert, was die beste Leistung seiner Klasse bietet.
Google Gemini ist außerdem dafür bekannt, dass es das erste Modell überhaupt ist, das menschliche Experten im Bereich Massive Multitask Language Understanding (MMLU) übertrifft.
Benchmarks des Gemini-Modells
Zum Zeitpunkt der Veröffentlichung war GPT-4 von OpenAI der größte Konkurrent von Gemini .
Mit 4 verschiedenen Vergleichsbereichen schlägt Gemini Ultra, das leistungsstärkste Gemini-Modell, GPT-4 in fast jeder Hinsicht, außer beim gesunden Menschenverstand für alltägliche Aufgaben. Gemini Ultra zeichnet sich durch genaue Python-Codegenerierung, mathematische Problemlösungsfähigkeiten und allgemeines MMLU aus.
Google hat außerdem einen umfassenderen Benchmarkbericht mit Gemini Pro und anderen relevanten KI-Modellen erstellt, die zur Nutzung zur Verfügung stehen:
Um mehr Kontext zu den Fähigkeiten der Gemini-Modelle zu liefern, hat Google einen normalisierten internen Test durchgeführt, bei dem Gemini Pro als Hauptbenchmark verwendet wurde.
Gemini AI-Funktionen
Die Gemini-KI ist von Haus aus multimodal konzipiert, um noch effektiver zu sein. Sie unterstützt Gemini beim Verstehen und Denken aller Arten von Eingaben und eignet sich daher hervorragend für Benutzer, die Hilfe suchen bei:
Anspruchsvolle Argumentation
Dank der komplexen multimodalen Denkfähigkeiten von Gemini kann das KI-Modell komplexe Informationen verarbeiten. Gemini ist daher in der Lage, aus großen Datenmengen verborgene Bedeutungen abzuleiten.
Sie können Gemini auch verwenden, um spezifische Informationen aus Tausenden von Dokumenten zu extrahieren. Das Programm kann Informationen anhand der eingegebenen Kriterien filtern und verstehen und Ihnen die gesuchten Informationen bereitstellen.
Erweiterte Codierung
Gemini kann Code verstehen, erklären und generieren. Es kann Code für weit verbreitete Programmiersprachen wie Python, Java, C++ und Go generieren.
Das bedeutet, dass Sie Code, den Sie nicht verstehen, über Gemini ausführen können, um eine Aufschlüsselung der Funktionsweise des Codes zu erhalten. Darüber hinaus kann Gemini Ihnen dabei helfen, Code für Funktionen bereitzustellen, mit denen Sie Schwierigkeiten haben.
Ideenfindung aus verschiedenen Inputs
Zwillinge können auf verschiedene Arten von Eingaben reagieren. Dazu gehören PDF-Dateien, Bilder, Texte und Videos. Mit genauen und detaillierten Identifikationsfähigkeiten können Zwillinge zu einer Inspirationsquelle werden – ein Brainstorming-Tool, wenn Sie es so nennen möchten.
Über Gemini API
Die Version von Gemini enthält die Google Gemini API, die Entwicklern eine große Vielfalt an KI-basierten Anwendungen ermöglicht. Mit Gemini sind Sie nicht mehr nur auf Text beschränkt – Sie können auch Bilder eingeben, um eingaberelevante Ausgaben zu generieren.
Verfügbarkeit der Gemini API
Derzeit gibt es eine Liste der verfügbaren Sprachen und Regionen, in denen Gemini API verwendet werden kann. Sehen Sie sich die folgenden Links an, um herauszufinden, ob Sie zur Verwendung von Gemini API berechtigt sind!
Gemini API-Preise
Google stellt eine kostenlose Version von Gemini Pro zur Verfügung. Obwohl es Benutzer dazu ermutigt, Apps mit der Gemini Pro API zu erstellen, sollten Benutzer sich darüber im Klaren sein, dass die Eingabeaufforderungen und Antworten der kostenlosen Version der API aufgezeichnet und im Forschungs- und Entwicklungsprozess von Gemini Pro verwendet werden. Mit anderen Worten: Google zeichnet alles auf, was die API empfängt und bereitstellt (keine Privatsphäre).
Da Gemini relativ neu ist, sind die vollständigen Preise für Gemini API noch nicht vollständig bekannt, es wurde jedoch ein Preis für die Eingabe und Ausgabe angegeben. Die Eingabe von 1000 Zeichen kostet 0,000125 USD und die Eingabe einer Nachricht 0,0025 USD. Für die Ausgabe von 1000 Zeichen berechnet Gemini API 0,000375 USD. Die kostenpflichtige Version von Gemini API unterstützt jedoch mehr als 60 Abfragen pro Minute.
Alternative manuelle Schritt-für-Schritt-Anleitung zur Verwendung der Gemini-API
Das Gemini-KI-Modell ist eines der leistungsstärksten kostenlos verfügbaren KI-Modelle. Wenn Sie daran interessiert sind, damit Anwendungen zu erstellen, lesen Sie den folgenden Abschnitt weiter.
Schritt 1: Gemini API-Schlüssel erhalten
Um Zugriff auf die Gemini-API zu erhalten, müssen wir zuerst den Gemini-API-Schlüssel von Google AI for Developers erhalten .
Sie gelangen dann zum Dashboard von Google AI Studio, wo Sie aufgefordert werden, eine neue Eingabeaufforderung zu starten oder einen API-Schlüssel abzurufen.
Suchen Sie oben nach der Schaltfläche, um einen API-Schlüssel zu erstellen.
Bei Gemini haben Sie die Möglichkeit, auszuwählen, ob Sie an einem Projekt arbeiten möchten, das sich bereits in der Google Cloud befindet (beispielsweise an einem Teamprojekt), oder ob Sie ein brandneues Projekt erstellen möchten.
Sobald Sie eine Option ausgewählt haben, generiert Gemini einen API-Schlüssel für Sie!
Schritt 2 – Den cURL-Code kopieren
Rufen Sie zunächst die Website von Google AI for Developers auf und kopieren Sie die URL, wie im Bild oben hervorgehoben. Fügen Sie den letzten Teil nicht ein, 2> /dev/nullda er nicht Teil des cURL-Codes sein soll.
Öffnen Sie als Nächstes Apidog und wählen Sie den violetten +Button in der oberen linken Ecke des Apidog-Fensters. Sie sollten sehen können Import cURL. Alternativ können Sie die Ctrl + IVerknüpfung verwenden.
Fügen Sie den cURL-Code in das Fenster ein und drücken Sie die OKTaste.
Mit Apidog können Benutzer vorhandenen cURL-Code in neue Anfragen importieren! Darüber hinaus können Sie diese cURL-Codeanfragen entsprechend Ihrer gewünschten Funktion ändern.
Alternative manuelle Schritte, wenn der cURL-Code nicht funktioniert
Lassen Sie Apidog eine API mit dem Gemini-API-Schlüssel erstellen
Dieser Artikel zeigt, wie Sie den Gemini-API-Schlüssel mit Apidog verwenden, einem designorientierten API-Entwicklungstool .
Erstellen Sie zunächst ein neues Projekt auf Apidog. Sie können es Gemini API oder einen beliebigen anderen Namen nennen!
Drücken Sie dann die New APITaste.
Gehen Sie jetzt zur Google AI for Developers-Website und kopieren Sie die URL, wie im Bild oben hervorgehoben.
Kehren Sie zu Apidog zurück und fügen Sie die kopierte Gemini-API-URL in den im Bild angezeigten hervorgehobenen Bereich ein. Da es sich bei diesem Beispiel um eine POST-Anfrage handelt, müssen Sie außerdem die Methode von GET in POST ändern.
Beachten Sie, dass der Abfrageparameter am Ende der URL entfernt wird. Keine Sorge – in Apidog werden alle Abfrageparameter automatisch extrahiert und ausgefüllt Request Params. Sie finden sie unter dem ParamsAbschnitt, wie im Bild gezeigt.
Sie müssen diesen Abschnitt durch den zuvor erhaltenen generierten Gemini-API-Schlüssel ersetzen. Fügen Sie ihn in den hervorgehobenen Abschnitt ein, der im Bild oben angezeigt wird. Klicken Sie anschließend auf „Speichern“, um Ihren Fortschritt zu speichern.
Kehren Sie zur Website „Google AI for Developers“ zurück , um den Text der POST-Anfrage zu kopieren. Kopieren Sie den markierten Teil des Texts.
Gehen Sie zurück zu Apidog, wählen Sie im Abschnitt „Anforderung“ die BodyKopfzeile aus und wählen Sie json. Fügen Sie dann den POST-Anforderungstext in den ExampleAbschnitt ein.
Mehr lesen: Erstellen Sie Social-Gaming-Anwendungen mit der Steam API
Wenn Sie die Eingabeaufforderung ändern möchten, die an die Gemini-API gesendet wird, können Sie die Zeichenfolge in den Anführungszeichen des „text“Elements bearbeiten.
Klicken Sie abschließend auf die SendSchaltfläche oben, um eine Anfrage zu stellen. Sie sollten dann eine Antwort von der Gemini API erhalten!
Schlussfolgerungen
Die Google Gemini API ist ein äußerst leistungsstarkes Tool, das viele Entwickler heute für kleine Programme, Anwendungen und Unternehmen nutzen können. Mit der Fähigkeit, sowohl Text- als auch Bildeingaben zu verarbeiten, kann die Gemini API Benutzern aufschlussreiche Antworten liefern, die intelligente, kontextbezogene Schlussfolgerungen beinhalten.
Apidog kann neben dem Erstellen von APIs auch eine einfache und intuitive Umgebung zum Testen, Mocking und Dokumentieren von APIs bieten. Mit vielen automatisierten Prozessen, die die Effizienz eines Entwicklers steigern, sollten Sie Apidog als Ihre nächste API-Plattform in Betracht ziehen!