Ein Large Language Model (LLM) ist eine Form von künstlicher Intelligenz, die mit riesigen Textsammlungen wie Büchern, Artikeln und Webseiten trainiert wird, damit sie menschliche Sprache verstehen, erzeugen und darüber argumentieren kann. Das „Large" im Namen bezieht sich sowohl auf die Größe der Trainingsdaten als auch auf die Anzahl der internen Parameter – oft Milliarden oder sogar Hunderte Milliarden –, die das Modell während des Trainings anpasst. Moderne LLMs sind sogenannte Foundation Models: allgemeine Systeme, die sich für viele nachgelagerte Sprachaufgaben anpassen lassen, ohne neu aufgebaut werden zu müssen.
Wie ein Large Language Model funktioniert
Die meisten LLMs basieren auf der Transformer-Architektur, die 2017 in dem Paper „Attention Is All You Need" vorgestellt wurde. Ein Transformer liest eine Sequenz von Tokens (Textabschnitten) und nutzt einen Mechanismus namens Self-Attention, um zu gewichten, welche früheren Tokens bei der Vorhersage des nächsten am wichtigsten sind. Während des Trainings errät das Modell wiederholt das nächste Token in einer Passage, vergleicht seine Schätzung mit dem tatsächlichen Token und passt seine Parameter an, um den Fehler zu reduzieren. Nach genügend Beispielen verinnerlicht das Modell Muster zu Grammatik, Fakten, Argumentationsstilen und sogar Programmiersyntax.
Zum Zeitpunkt der Inferenz erzeugt das LLM Text Token für Token, wobei es die wahrscheinlichste Fortsetzung basierend auf dem Prompt und möglichen Systemanweisungen auswählt oder sampelt. Ein einfaches Beispiel: Bei dem Prompt „The capital of France is" weist das Modell „Paris" eine hohe Wahrscheinlichkeit zu und gibt es aus. Derselbe Mechanismus erlaubt es einem einzigen Modell – hochskaliert und mit vielfältigeren Daten trainiert – Essays zu schreiben, Sprachen zu übersetzen, Code zu erklären und Gespräche zu führen.
Warum es wichtig ist
LLMs treiben die meisten modernen Konversations-KIs an, von Kundensupport-Chatbots über Programmierassistenten bis hin zu Suchmaschinen. Sie ermöglichen es Software, in natürlicher Sprache mit Menschen zu interagieren, das Erstellen und Zusammenfassen von Texten zu automatisieren und auch nicht-technischen Nutzern Fähigkeiten zugänglich zu machen, die früher Spezialisten vorbehalten waren. Für Unternehmen senken LLMs die Kosten für die Erstellung und Analyse von Texten; für Forschende bieten sie eine flexible Grundlage, um Sprache und Argumentation zu untersuchen. Sie werfen allerdings auch wichtige Fragen zu Genauigkeit, Bias, Urheberrecht und Energieverbrauch auf, da die Outputs die Daten widerspiegeln, mit denen das Modell trainiert wurde.
Wichtige Typen und verwandte Konzepte
- Base-Modelle (vortrainiert): Rohmodelle, die auf breiten Textkorpora trainiert wurden und als Ausgangspunkt für weiteres Fine-Tuning dienen.
- Instruct- oder Chat-optimierte Modelle: Base-Modelle, die zusätzlich mit Beispielen für Anweisungen und Dialoge trainiert wurden, damit sie Nutzeranfragen zuverlässiger folgen.
- Open-Weight vs. proprietäre LLMs: Open-Weight-Modelle (z. B. Metas Llama-Familie, Mistral) veröffentlichen ihre Parameter öffentlich; proprietäre Modelle (z. B. OpenAIs GPT-Serie, Anthropics Claude) werden über APIs genutzt.
- Multimodale Modelle: LLMs, die zusätzlich zu Text auch Bilder, Audio oder Video verarbeiten können.
- Small Language Models (SLMs): Kompakte Modelle, die für den lokalen Betrieb auf Geräten oder in privaten Umgebungen mit geringeren Kosten ausgelegt sind.
Ein LLM ist letztlich ein statistisches Modell von Sprache, aber weil es auf Milliarden von Parametern skaliert und mit einem erheblichen Teil des öffentlichen Webs trainiert wurde, verhält es sich wie ein bemerkenswert vielseitiger Assistent. Zu verstehen, was ein LLM ist und was nicht, ist der erste Schritt, um diese Werkzeuge effektiv und kritisch zu nutzen.