GPT, Claude, Mistral, Gemini... die Liste der Large Language Models (LLMs) ist nahezu endlos. Doch wie unterscheiden sich diese Modelle? Wie wählt man den richtigen Anbieter aus? Diese Fragen stellen sich viele technische Anwender, die die Vorteile generativer KI nutzen möchten. In unserem heutigen Artikel beleuchten wir die technischen Kriterien, die bei der Bewertung eines LLMs eine Rolle spielen.
Geschäftsanforderungen verstehen
Die Grundlage für die Wahl des richtigen LLMs bildet eine klare Definition des Anwendungsfalls. Denn diese Anforderungen bestimmen die Gewichtung der technischen Auswahlkriterien.
Stellen Sie sich die Frage:
- Was möchten Sie mit der Nutzung des LLMs erreichen?
- In welchen Bereichen muss das LLM besonders leistungsfähig sein, um Ihr Ziel zu erreichen?
Denn, wie Sie an den Beispielanwendungsfällen erkennen können, unterscheiden sich die technischen Anforderungen. Bei der Auswahl von LLMs in Implementierungsprojekten betrachten wir fünf Kriterien: Kontextgröße, Latenz, Kosten, Compliance und Datenschutz sowie Ausgabequalität.
Beispiele für Anwendungsfälle:
Abrufung unstrukturierter Daten mit RAG
- Beschreibung: Nutzung von Methoden zur Suche und zum Abruf von Informationen aus umfangreichen Wissensbeständen.
- Anwendungsbeispiele: RAG (Retrieval-Augmented Generation), Such- und Abrufmethoden.
- Anforderung: Großes Kontextfeld, Geringe Latenz
Code Generierung
- Beschreibung: Erstellung, Übersetzung oder Optimierung von ausführbarem Programmcode.
- Anwendungsbeispiele: Python Code Generator, Text2SQL
- Anforderung: Großes Kontextfeld, Mittlere Latenz, Viel Programmcode im Trainingsdatensatz
Inhaltsmoderation/Guardrails
- Beschreibung: Überwachung und Moderation von Inhalten zur Erkennung von riskantem Verhalten oder spezifischen Kundenanfragen.
- Anwendungsbeispiele: Erkennung von unangemessenen Verhalten, Filtern von Kundenanfragen.
- Anforderung: Kleines Kontextfeld, Geringe Latenz, Mittlere Ausgabequalität
Technische Kriterien
Kontextgröße
Die Kontextgröße eines LLMs ist vergleichbar mit dessen Gedächtnisvermögen. Sie gibt an, wie viel Text das Modell gleichzeitig verarbeiten kann. Für Anwendungen wie die Analyse von großen Dokumenten, beispielsweise LLM-gestützte Überprüfungen von Rechtsdokumenten, ist eine große Kontextgröße von Vorteil.
Latenz
Die Latenz beschreibt die Zeit, die das Modell benötigt, um eine Antwort zu generieren. Eine niedrige Latenz ist besonders wichtig für Anwendungen, bei denen es auf schnelle Reaktionen ankommt, wie beispielsweise bei Sprachassistenten. Hier kann die Hardwareoptimierung eine entscheidende Rolle spielen. Der Einsatz spezialisierter Verarbeitungseinheiten wie LPUs (Large Processing Units), die für die Inferenz ausgelegt sind, kann die Antwortzeiten massive verkürzen.
Kosten
Die Kosten für die Nutzung eines LLMs können je nach Anbieter und Nutzungsintensität stark variieren. API Provider rechnen pro generierten Token ab, genauso wie Cloud-Hosting Provider (wie Azure OpenAI Studio oder Amazon Bedrock). Nicht jeder Anwendungsfall erfordert gleich das teuerste Modell.
Compliance und Datenschutz
Im Unternehmenskontext sind Compliance und Datenschutz von zentraler Bedeutung. Bei der Auswahl eines LLMs sollte darauf geachtet werden, wo das Modell gehostet wird und ob die eingegebenen Daten für Trainingszwecke gespeichert werden. Wenn die Applikation mit sensiblen Kundendaten arbeitet, ist es weniger sinnvoll, sich auf ein Modell zu verlassen, das in einem Rechenzentrum in den USA betrieben wird und Daten speichert.
Ausgabequalität & Verständnis
Das Verständnis des LLMs und somit die Qualität der generierten Ausgabe ist ein entscheidender Faktor bei dessen Auswahl. Es gibt zwei Varianten, um die Ausgabequalität quantitativ zu bewerten: über Proxy Scores wie LMSYS oder über statistische Metriken.
Als Proxy zur Quantifizierung der Ausgabequalität, nutzen wir die Plattform LMSYS, welche LLMs untereinander vergleicht. Dafür bietet LMSYS ein eigenes Chat Interface an, das pro Anfrage zwei verschiedene Antworten von zwei unterschiedlichen LLMs generiert. Nutzer bewerten dann die Qualität der Antworten, was zu einem ELO-Score führt, der die Ausgabequalität vergleicht. Während eine hohe Ausgabequalität oft mit höheren Kosten verbunden ist, muss jedes Unternehmen entscheiden, ob es diese maximale Qualität für seinen Anwendungsfall benötigt.
Die andere Variante ist eine Evaluiering über statistische Metriken wie: Model accuracy, coherence, groundedness, fluency, relevance und similarity. Ein kleiner Exkurs in die statistischen Metriken:
- Model Accuracy: Die Genauigkeit eines Modells gibt an, wie präzise es Daten korrekt klassifiziert, z.B. 95% korrekte Vorhersagen.
- Model Coherence: Kohärenz bewertet, wie gut das Modell fließende und natürliche Texte erzeugt, z.B. ein menschlich klingender Text ohne abrupten Themenwechsel.
- Model Groundedness: Fundiertheit misst, wie gut das Modell faktenbasierte Antworten liefert, z.B. Aussagen basierend auf überprüfbaren Informationen.
- Model Fluency: Flüssigkeit bewertet die sprachliche Kompetenz des Modells, z.B. ein Text ohne grammatikalische Fehler.
- Model Relevance: Relevanz misst, wie gut die Antworten zum Thema passen, z.B. direkt auf die gestellte Frage bezogen.
- Model Similarity: Ähnlichkeit misst die Übereinstimmung zwischen Quellensatz (Menschlich oder durch GPT) und generierter Antwort, z.B. inhaltlich und sprachlich sehr ähnlich.
Multi-Provider-Strategie
Da Anwendungsfälle so vielfältig sein können und auch innerhalb der Anwendungsfälle unterschiedliche Anforderung stehen, sollte man sich nicht nur auf ein Modell beschränken. Durch sogenanntes “Routing”, können dann je nach Anforderung das geeignete bei Laufzeit bestimmt werden.
Zusammenfassung
Kontextgröße: Die Kontextgröße bestimmt, wie viel Text das Modell gleichzeitig verarbeiten kann, was besonders für die Analyse großer Dokumente wichtig ist.
Latenz: Eine niedrige Latenz ist für Anwendungen mit schnellen Reaktionszeiten entscheidend, wie bei Sprachassistenten.
Kosten: Die Nutzungskosten variieren stark je nach Anbieter und Nutzungsintensität; nicht jeder Anwendungsfall benötigt das teuerste Modell.
Compliance und Datenschutz: Achten Sie darauf, wo das Modell gehostet wird und wie es mit sensiblen Daten umgeht, besonders im Unternehmenskontext.
Ausgabequalität: Die Qualität der generierten Ausgaben, gemessen durch Proxy Scores oder statistische Metriken, ist entscheidend für die Wahl des LLMs.