What is the difference between a foundation model and a large language model?

All large language models are foundation models, but not all foundation models are LLMs. A foundation model is any large model trained on broad data that can be adapted to many tasks, including image, audio, and protein models. A large language model is a foundation model specifically designed to process and generate text.

Who coined the term foundation model?

The term was introduced in 2021 by Stanford's Center for Research on Foundation Models (CRFM) in a paper led by Rishi Bommasani and colleagues. It described the shift from task-specific AI systems to a single general-purpose model reused across applications.

How are foundation models trained?

Most foundation models are pre-trained with self-supervised learning on huge unlabeled datasets, typically using the transformer architecture. The model learns by predicting missing or next parts of its input, such as the next word in a sentence, which lets it scale to internet-sized corpora without manual labeling.

Can foundation models be fine-tuned?

Yes. After pre-training, foundation models are commonly adapted through fine-tuning, instruction tuning, reinforcement learning from human feedback (RLHF), or prompt engineering. These steps specialize a general-purpose model for particular tasks, domains, or safety requirements.

Was ist ein Foundation Model? Definition & Leitfaden

Ein Foundation Model ist ein großes Machine-Learning-Modell, das mit Methoden wie dem selbstüberwachten Lernen auf massiven, vielfältigen Datensätzen trainiert wird. Nach diesem breiten Pre-Training kann dasselbe Modell angepasst oder feinjustiert werden, um eine Vielzahl nachgelagerter Aufgaben zu erfüllen – von der Beantwortung von Fragen und der Übersetzung von Sprachen bis hin zur Erzeugung von Bildern und der Analyse von Proteinen. Das Konzept wurde 2021 vom Center for Research on Foundation Models (CRFM) der Stanford University formalisiert, das den Begriff prägte, um ein neues Paradigma in der KI zu beschreiben.

Wie Foundation Models funktionieren

Foundation Models werden in der Regel mit einer neuronalen Netzwerkarchitektur – meist dem Transformer – erstellt und auf Hunderten Milliarden von Wörtern, Bildern oder anderen Datenpunkten trainiert, die aus dem offenen Web, Büchern, Code-Repositorys und lizenzierten Korpora zusammengetragen werden. Das Training stützt sich üblicherweise auf selbstüberwachtes Lernen, bei dem das Modell fehlende oder nächste Teile seiner eigenen Eingabe vorhersagt, sodass keine manuell beschrifteten Beispiele in großem Umfang erforderlich sind. Das Ergebnis ist ein Modell mit breitem statistischem Wissen über Sprache, Code, Bilder oder andere Modalitäten, das allgemeine Muster statt einer einzelnen Aufgabe kodiert.

Sobald das Pre-Training abgeschlossen ist, wird das Modell zur Foundation: Entwickler passen es über Techniken wie Fine-Tuning, Prompt Engineering oder Retrieval-Augmented Generation an bestimmte Anwendungen an. Dasselbe Basismodell kann daher einen Kundensupport-Chatbot, einen Zusammenfasser für Krankenakten und einen Code-Assistenten betreiben – jede Anwendung baut auf gemeinsamen Fähigkeiten auf, anstatt von Grund auf neu trainiert zu werden.

Warum es wichtig ist

Foundation Models haben die KI-Ökonomie neu geprägt, da ein einziges vortrainiertes Modell Hunderte nachgelagerter Anwendungen bedienen kann, was die Kosten und den Datenaufwand für die Entwicklung neuer Anwendungen drastisch senkt. Sie treiben weit verbreitete Systeme wie große Sprachmodelle für Text, Diffusionsmodelle zur Bilderzeugung und multimodale Modelle an, die Text, Bilder und Audio gemeinsam verarbeiten. Gleichzeitig bündelt ihre Größe Fähigkeiten, Risiken und Verzerrungen, was wichtige Fragen zu Bewertung, Sicherheit und Governance aufwirft.

Wichtige Arten von Foundation Models

Large Language Models (LLMs): textbasierte Modelle wie die GPT-Familie, Claude und Llama, die auf massiven Textkorpora trainiert werden, um Sprache zu erzeugen und darüber zu argumentieren.
Diffusionsmodelle: Bilderzeugungsmodelle wie Stable Diffusion, die darauf trainiert werden, einen Rauschhinzufügungsprozess umzukehren und Bilder aus Text-Prompts zu synthetisieren.

Multimodale Modelle: Systeme wie CLIP und GPT-4V, die Text, Bilder, Audio oder Video innerhalb einer einzigen Foundation gemeinsam verarbeiten.

Domänenspezifische Foundations: Modelle, die auf wissenschaftlicher Literatur, Proteinsequenzen oder Code vortrainiert und dann für spezialisierte Aufgaben wie Wirkstoffentdeckung oder Softwareentwicklung angepasst werden.

Indem Foundation Models das alte Paradigma, für jedes neue Problem ein enges Modell zu trainieren, durch eine einzige anpassbare Basis ersetzen, sind sie zum Standardausgangspunkt der modernen KI-Entwicklung geworden.

Was ist Foundation Model?

Wie Foundation Models funktionieren

Warum es wichtig ist

Wichtige Arten von Foundation Models

Häufig gestellte Fragen