Mistral AI ist ein in Frankreich ansässiges Startup für künstliche Intelligenz (KI), das vor allem für seine Open-Source- Large-Language-Models (LLMs) bekannt ist . Seit seiner Gründung im Jahr 2023 hat es sich zu einem der weltweit führenden Entwickler generativer KI entwickelt .
Mistral AI wurde im April 2023 von Arthur Mensch, ehemals bei Google DeepMind, zusammen mit Guillaume Lample und Timothée Lacroix, ehemals bei Meta AI, gegründet. Die Gründer, die sich während ihres Studiums an der École Polytechnique in einem Vorort von Paris kennenlernten, benannten ihr Unternehmen nach dem starken Nordwestwind, der von Südfrankreich ins Mittelmeer weht. Gemessen an der Bewertung war das französische Unternehmen im Juni 2024 das größte KI-Startup in Europa und das größte außerhalb der San Francisco Bay Area .
Bei DeepMind war Mensch einer der Hauptautoren des wegweisenden Artikels „Training compute-optimal large language models“ . Der Artikel und das darin vorgestellte „Chinchilla“-Modell untersuchten Skalierungsgesetze für LLMs und führten zu mehreren einflussreichen Entdeckungen hinsichtlich der Beziehung zwischen Modellgröße, Trainingsdaten, Effizienz und Leistung für autoregressive Sprachmodelle. Bei Meta gehörten Lacroix und Lample zu den Forschern hinter den ursprünglichen LLaMa-Modellen.
Die kombinierte Expertise der Mitgründer in den Bereichen Effizienz und LLM-Entwicklung hat eine Reihe von größtenteils Open-Source-Modellen hervorgebracht, deren Leistung oft mit der von deutlich größeren LLMs mithalten kann. Zu den bemerkenswertesten frühen Beiträgen des europäischen Unternehmens zur Entwicklung generativer KI gehörten Innovationen im Bereich der MoE-Modelle (Sparse Mixture of Experts) .
Zu seiner erklärten Mission gehört ein „starkes Engagement für offene, portable und anpassbare Lösungen und ein extremer Fokus auf die Bereitstellung der fortschrittlichsten Technologie in begrenzter Zeit.“
Mistral-KI-Modelle
Mistral AI unterteilt seine LLMs im Allgemeinen in drei Kategorien: „Allzweck“-Modelle, „Spezial“-Modelle und „Forschungs“-Modelle.
Obwohl Mistral viele seiner Modelle mit offenen Gewichten auf den meisten gängigen Plattformen für maschinelles Lernen (ML) unter einer Apache 2.0-Lizenz anbietet, gibt es für die kommerzielle Bereitstellung seiner leistungsstärksten Modelle in der Regel einige Einschränkungen.
Mistral verwendet für seine Modelle ein einfaches, wenn auch unkonventionelles Namenssystem. Die Namen einiger Modelle, wie Mistral 7B oder Pixtral 12B, geben die Anzahl der Parameter an, während andere die Größe eher beschreibend angeben, wie „Mistral Large“ oder „Mistral Small“, oder gar nicht. Viele, wie „Mixtral“ oder „Mathstral“, sind ein Wortspiel mit dem Firmennamen.
Einige Modellversionsaktualisierungen spiegeln sich in den primären Modellnamen wider, andere nicht. Beispielsweise wurden Mistral Large und Mistral Small erstmals im Februar 2024 veröffentlicht. Ersteres wurde im Juli als „Mistral Large 2“ aktualisiert, letzteres blieb jedoch nach einem Update im September „Mistral Small“.
Allzweckmodelle
Die von Mistral AI als „Allzweckmodelle“ kategorisierten Modelle sind typischerweise Text-In-Text-Out-LLMs, die hinsichtlich ihrer jeweiligen Modellgröße, Kosten oder Rechenleistung an die modernste Leistung heranreichen. Wie der Name der Kategorie schon sagt, eignen sich diese Modelle gut für allgemeine Anwendungsfälle der natürlichen Sprachverarbeitung (NLP) und Textgenerierung.
Mistral Large 2
Mistral Large 2 ist Mistrals Flaggschiff-LLM und größtes Modell. Bei seiner Veröffentlichung im September 2024 übertraf seine Leistung bei gängigen Benchmarks alle offenen Modelle (mit Ausnahme des viel größeren Meta Llama 3.1 405B ) und konnte mit der vieler führender geschlossener Modelle mithalten.
Mit 123 Milliarden Parametern besetzt Mistral Large 2 eine einzigartige Nische in der LLM-Landschaft. Es ist größer als jedes mittelgroße Modell, aber deutlich kleiner als seine direkten Konkurrenten. In seiner offiziellen Release-Ankündigung gab Mistral AI an, dass das Modell so dimensioniert wurde, dass es mit hohem Durchsatz auf einem einzigen Knoten laufen kann.
Laut Mistral AI unterstützt der mehrsprachige Mistral Large 2 Dutzende von Sprachen, darunter Englisch, Französisch, Deutsch, Spanisch, Italienisch, Portugiesisch, Arabisch, Hindi, Russisch, Chinesisch, Japanisch und Koreanisch. Darüber hinaus unterstützt er über 80 Programmiersprachen.
Mistral Large 2 wurde unter der Mistral Research License veröffentlicht und erlaubt die offene Nutzung und Modifikation nur für nichtkommerzielle Zwecke. Für den kommerziellen Einsatz müssen Sie sich direkt an den KI-Anbieter wenden, um eine kommerzielle Mistral-Lizenz anzufordern, oder über ausgewählte Partner wie IBM Watsonx™ darauf zugreifen .
Mistral Small
Mistral Small wurde erstmals im Februar 2024 als Enterprise-Modell veröffentlicht, blieb jedoch zunächst im Status eines „Legacy-Modells“, bevor es überarbeitet wurde und im September als Enterprise-Modell, Mistral Small v24.09, zurückkehrte. Trotz seines Namens bietet Mistral mehrere kleinere Modelle als Mistral Small an.
Mit 22B-Parametern stellt Mistral Small einen kostengünstigen Mittelweg zwischen Mistral Larger 2 und dem kleineren Mistral NeMo 12B dar. Wie Mistral Large 2 wird Mistral Small 24.09 unter der Mistral Research License angeboten.
Mistral NeMo
Mistral NeMo wurde in Zusammenarbeit mit NVIDIA entwickelt. Mit 12 Milliarden Parametern gehört es zu den leistungsstärksten Modellen seiner Größenordnung und bietet mehrsprachige Unterstützung für romanische Sprachen, Chinesisch, Japanisch, Koreanisch, Hindi und Arabisch. Von Mistrals Allzweckmodellen ist Mistral NeMo das einzige LLM, das vollständig Open Source unter einer Apache 2.0-Lizenz ist.
Spezialmodelle
Im Gegensatz zu den Allzweckmodellen werden die „Spezialmodelle“ von Mistral AI für bestimmte Aufgaben und Domänen trainiert und nicht für allgemeine Text-In-Text-Out-Anwendungen.
Es ist jedoch zu beachten, dass es sich hierbei nicht um eine starre Bezeichnung handelt: Mistral AI kategorisiert einige zusätzliche spezialisierte Modelle, wie beispielsweise Mathstral, als „Forschungsmodelle“ und nicht als „Spezialmodelle“. Die Unterscheidung basiert in erster Linie auf den verfügbaren Nutzungsrechten: Für Spezialmodelle können bestimmte Einschränkungen hinsichtlich der Bereitstellungsumgebung oder der kommerziellen Nutzung gelten, für Forschungsmodelle hingegen nicht.
Codestral
Codestral ist ein 22B Open-Weight-Modell, das auf Codegenerierungsaufgaben spezialisiert ist und über 80 Programmiermodelle beherrscht, darunter Python, Java, C, C++, JavaScript, Bash, Swift und Fortran. Es wurde unter der Mistral AI Non-Production License veröffentlicht und kann daher für Forschungs- und Testzwecke verwendet werden. Kommerzielle Lizenzen können auf Anfrage direkt bei Mistral erteilt werden.
Mistral Embed
Mistral Embed ist ein Einbettungsmodell, das darauf trainiert ist, Worteinbettungen zu generieren . Derzeit unterstützt es nur die englische Sprache.Pixtral 12B
Pixtral 12B ist ein offenes multimodales Modell, das unter der Apache 2.0-Lizenz angeboten wird und sowohl Text-In-, Text-Out- als auch Image-In-, Text-Out-Aufgaben unterstützt. Seine Architektur kombiniert einen 12B-Multimodal-Decoder basierend auf Mistral Nemo und einen 400M-Parameter-Vision-Encoder, der von Grund auf mit Bilddaten trainiert wurde. Pixtral kann in Konversationsschnittstellen verwendet werden, ähnlich wie bei standardmäßigen textbasierten LLMs, bietet jedoch zusätzlich die Möglichkeit, Bilder hochzuladen und das Modell dazu aufzufordern, Fragen zu beantworten.
Im Vergleich zu multimodalen Modellen vergleichbarer Größe, sowohl proprietären als auch Open Source, erzielte Pixtral bei den meisten multimodalen Benchmarks äußerst konkurrenzfähige Ergebnisse. So übertraf Pixtral beispielsweise Anthropics Claude 3 Haiku, Googles Gemini 1.5 Flash 8B und Microsofts Phi 3.5 Vision-Modelle bei Benchmarks zur Messung von Problemlösung auf College-Niveau (MMMU), visuellem mathematischen Denken (MathVista), Diagrammverständnis (ChartQA), Dokumentverständnis (DocQA) und allgemeiner visueller Fragebeantwortung (VQAv2). 2
Forschungsmodelle
Die Forschungsmodelle von Mistral werden jeweils als vollständig Open-Source-Modelle angeboten, ohne Einschränkungen hinsichtlich der kommerziellen Nutzung, der Bereitstellungsumgebungen oder der Möglichkeit zur Feinabstimmung.MixtralMixtral ist eine Familie von rein dekodierten, spärlichen Mixture-of-Experts- Modellen (MoE). Im Gegensatz zu herkömmlichen Feedforward-Neuronalen Netzwerken, die das gesamte Netzwerk für jede Inferenz nutzen, sind MoE-Modelle in verschiedene Parametergruppen, sogenannte Experten, unterteilt. Für jedes Token wählt ein Router-Netzwerk auf jeder Ebene nur eine bestimmte Anzahl von Experten zur Verarbeitung der Eingabe aus.
Diese Struktur ermöglicht es jedem Expertennetzwerk, sich im Training auf die Verarbeitung bestimmter Eingaben zu spezialisieren. Bei der Inferenz verwendet das Modell für jede Eingabe nur einen Bruchteil der insgesamt verfügbaren Parameter – und zwar die Parameter der Expertennetzwerke, die für die jeweilige Aufgabe am besten geeignet sind. Dadurch reduziert die MoE-Architektur die Kosten und die Latenz der Inferenz erheblich, ohne dass die Leistung entsprechend abnimmt.
Mixtral wird in 2 Varianten angeboten, die jeweils in 8 Expertennetzwerke unterteilt sind: Mixtral 8x7B und Mixtral 8x22B. Ersteres zählt zu den in IBM Watson verfügbaren Basismodellen .
Mehr lesen: Die Besten MyWape Alternativen, Bei Denen Sie Im Jahr 2023 Unbegrenzt Inhalte Für Erwachsene Ansehen Können
Mathstral
Mathstral ist eine Variante von Mistral 7B – das mittlerweile den Status eines „Legacy-Modells“ hat –, die für die Lösung mathematischer Probleme optimiert ist und unter der Apache 2.0-Lizenz verfügbar ist.
Codestral Mamba
Während das ursprüngliche Codestral-Modell die Standard-Transformer-Architektur verwendet, die fast allen großen Sprachmodellen gemeinsam ist, verwendet Codestral Mamba die spezielle Mamba-Architektur . Die Forschung an Mamba-Modellen befindet sich noch in der Anfangsphase – Mamba wurde erstmals in einem Artikel aus dem Jahr 2023 vorgestellt –, aber die neuartige Architektur bietet erhebliche theoretische Vorteile hinsichtlich Geschwindigkeit und Kontextlänge.
Le Chat
Le Chat ist der Chatbot-Dienst von Mistral, ähnlich wie ChatGPT von OpenAI, der am 26. Februar 2024 erstmals als Betaversion veröffentlicht wurde. Neben Mistral Large und Mistral Small hat Mistral kürzlich den multimodalen Pixtral 12B zur Liste der in Le Chat verfügbaren LLMs hinzugefügt.
La Plateforme
La Plateforme ist Mistrals API-Plattform für Entwicklung und Bereitstellung. Sie bietet API-Endpunkte und ein Ökosystem zum Experimentieren, Optimieren benutzerdefinierter Datensätze sowie zum Bewerten und Erstellen von Prototypen mit Mistral-Modellen.