📖

Was ist Zero-Shot-Lernen?

Zero-Shot-Lernen erklärt: Wie Modelle Klassen erkennen oder verarbeiten, die sie während des Trainings nie gesehen haben, und warum dies für skalierbare KI wichtig ist.

Zero-Shot-Lernen (ZSL) ist ein Paradigma des maschinellen Lernens, bei dem von einem Modell erwartet wird, genaue Vorhersagen für Kategorien oder Aufgaben zu treffen, die es während des Trainings nie gesehen hat. Anstatt jede neue Klasse anhand beschrifteter Beispiele zu erlernen, stützt sich das Modell auf Zusatzinformationen – wie Attributbeschreibungen, Klassennamen oder Anweisungen in natürlicher Sprache –, um auf den unbekannten Fall zu generalisieren. Dieser Ansatz ist heute zentral für die Funktionsweise moderner Foundation Models, da er es einem einzigen Modell ermöglicht, Tausende von Aufgaben ohne Neutraining zu bewältigen.

Wie Zero-Shot-Lernen funktioniert

Die Kernidee besteht darin, einen gemeinsamen semantischen Raum zu erlernen, in dem sowohl gesehene als auch ungesehene Klassen dargestellt werden können. Während des Trainings kombiniert das Modell beschriftete Beispiele mit beschreibenden Informationen (zum Beispiel wird ein als „Zebra" beschriftetes Bild mit dem Text „ein pferdeähnliches Tier mit schwarz-weißen Streifen" verknüpft). Anschließend lernt es, die beiden Modalitäten so aufeinander abzustimmen, dass zur Inferenzzeit eine unbeschriftete Eingabe der nächstgelegenen textuellen oder Attributbeschreibung zugeordnet werden kann – einschließlich Beschreibungen von Klassen, auf die es nie trainiert wurde.

Große Sprach- sowie Vision-Language-Modelle wie CLIP, GPT und Gemini erweitern diese Idee noch weiter. Sie werden auf umfangreichen Korpora gepaarter Bild-Text- bzw. Anweisungs-Antwort-Daten trainiert und zur Inferenz mit einer Beschreibung der gewünschten Ausgabe angesteuert. Ein einfaches Beispiel: Bei der Eingabe „Klassifiziere diese Bewertung als positiv, negativ oder gleichgültig" kann ein Modell, das nie auf Stimmungsdaten feinabgestimmt wurde, dennoch eine nützliche Antwort liefern, da die Sprache der Eingabe selbst die fehlenden Klassendefinitionen liefert. Eine formalere Darstellung findet sich im ursprünglichen NeurIPS-2009-Paper von Palatucci et al., das maßgeblich zur Definition dieses Settings beigetragen hat.

Warum es wichtig ist

Zero-Shot-Lernen adressiert einen der kostspieligsten Engpässe in der angewandten KI: gelabelte Daten. Das Sammeln und Annotieren von Beispielen für jede neue Klasse, Sprache oder Aufgabe ist langsam und oft unpraktikabel, insbesondere in Long-Tail-Bereichen wie seltenen Arten, Nischen-Industriedefekten oder ressourcenarmen Sprachen. Indem Zero-Shot-Methoden auf gemeinsame Strukturen zurückgreifen, die aus anderen Beispielen gelernt wurden, können sie in diesen Umgebungen ohne zusätzliches Training brauchbare Leistungen liefern.

Es macht Produkte zudem flexibler. Ein einzelner Bildklassifikator kann zur Laufzeit durch Änderung des Text-Prompts auf eine neue Kategorie ausgerichtet werden, ein einzelnes Übersetzungsmodell kann ohne Neutraining die Sprache wechseln, und ein einzelner Assistent kann auf Abruf neue Personas oder Formate annehmen. Diese Allgemeinheit ist ein wesentlicher Grund dafür, dass CLIP und ähnliche Vision-Language-Modelle zu Standardkomponenten in modernen Computer-Vision-Pipelines geworden sind.

Wichtige Typen

  • Klassisches attributbasiertes ZSL: Jede Klasse wird durch einen manuell erstellten Vektor von Attributen beschrieben (z. B. „hat Flügel", „lebt im Wasser"), und das Modell lernt, diese Attribute für ungesehene Klassen vorherzusagen.
  • Embedding-basiertes ZSL: Klassen werden als Embeddings in einem gemeinsamen Raum dargestellt (häufig aus Wortvektoren oder Sprachmodellen), und neue Klassen werden anhand der Ähnlichkeit zu vorhergesagten Eingabe-Embeddings zugeordnet.
  • Generatives ZSL: Ein generatives Modell synthetisiert synthetische Merkmale für ungesehene Klassen und verwandelt Zero-Shot damit effektiv in ein klassisches überwachtes Problem.
  • Prompt-basiertes ZSL mit Foundation Models: Die Aufgabenspezifikation erfolgt in natürlicher Sprache; das Modell interpretiert den Prompt und antwortet ohne jegliche Parameteraktualisierungen.

Zero-Shot-Lernen ist keine Magie – seine Leistung bleibt weiterhin hinter vollständig überwachten Modellen zurück, wenn reichlich gelabelte Daten vorhanden sind, und es kann versagen, wenn Hilfsbeschreibungen mehrdeutig oder irreführend sind. Dennoch ist es mittlerweile eine Standarderwartung an große KI-Systeme, und die Fähigkeit, allein aus Anweisungen auf neue Aufgaben zu generalisieren, ist ein prägendes Merkmal der leistungsfähigsten Modelle von heute.

Häufig gestellte Fragen

What is the difference between zero-shot and few-shot learning?
Zero-shot learning makes predictions for unseen classes with no examples at all, relying on descriptions or prompts. Few-shot learning provides a small number of labeled examples — typically one to ten — so the model can adapt its behavior. Few-shot usually outperforms zero-shot on the same task, at the cost of requiring some labeled data.
Is ChatGPT an example of zero-shot learning?
Yes. When a user gives ChatGPT a task it was never explicitly trained on, such as rewriting text in a specific style or classifying an unusual list, the model is performing zero-shot generalization. It interprets the natural-language instruction and produces a response using only the patterns learned during pre-training.
What are the main limitations of zero-shot learning?
Zero-shot models depend heavily on the quality of the auxiliary descriptions or prompts they receive. They also tend to be less accurate than supervised models when plenty of labeled data is available, and they can be biased toward classes they have seen during training — a problem known as the hubness or bias problem. Domain shift between training and deployment settings can further degrade performance.
How is zero-shot learning evaluated?
Models are typically evaluated on a held-out set of classes that never appear in training, measuring metrics like top-1 or top-5 accuracy against the unseen-class labels. Standard benchmarks include UCF101, ImageNet-21K splits, and a range of text classification and question-answering suites used in NLP research.