Multimodale KI ist künstliche Intelligenz, die mehrere Arten von Daten wie Text, Bilder, Audio und Video innerhalb eines einzigen Modells verarbeiten und darüber schlussfolgern kann. Anstatt auf ein einziges Eingabeformat beschränkt zu sein, kann ein multimodales System beliebige Kombinationen dieser Daten annehmen und reichhaltigere Ergebnisse liefern, indem es versteht, wie die verschiedenen Datenströme miteinander in Beziehung stehen. Dadurch verhält sich das Modell weniger wie ein eng begrenztes Werkzeug und eher wie ein Generalist, der die Welt so interpretiert, wie Menschen es tun – über viele Sinne gleichzeitig.
So funktioniert multimodale KI
Im Kern eines multimodalen Systems befindet sich ein gemeinsamer Repräsentationsraum, in dem verschiedene Datentypen als Vektoren kodiert werden – numerische Fingerabdrücke, die das Modell vergleichen und kombinieren kann. Jede Modalität, sei es Text, Pixel oder Schallwellen, wird zunächst mithilfe spezialisierter Encoder in diesen gemeinsamen Raum umgewandelt, etwa einem Vision Transformer für Bilder oder einem Tokenizer für Text. Ein Fusionsmodul, häufig eine transformerbasierte Architektur, betrachtet anschließend alle kodierten Eingaben gemeinsam, sodass das Modell übergreifend über sie schlussfolgern kann.
Erhält das Modell beispielsweise ein Foto einer Küche und die Frage „Welche Zutat fehlt mir für dieses Rezept?“, kann es die Objekte im Bild erkennen, sie mit kulinarischem Wissen verknüpfen, das als Text gespeichert ist, und eine hilfreiche Antwort in natürlicher Sprache liefern. Das Training verwendet in der Regel große Mengen gepaarter Daten, etwa Bilder mit Bildunterschriften, transkribierte Videos oder Sprache mit passendem Text, sodass das Modell die Zuordnung zwischen den Modalitäten erlernt. Moderne Systeme nutzen außerdem vereinheitlichte Tokenizer, die Bild- oder Audio-Tokens ähnlich wie Wörter behandeln, wodurch ein einzelner Transformer alles Ende-zu-Ende verarbeiten kann.
Warum sie wichtig ist
Die meisten Informationen in der realen Welt sind multimodal. Die Notizen eines Arztes beschreiben einen Scan, ein Tutorial kombiniert gesprochenen Text mit Bildschirmaufnahmen, und ein Kunde sendet eine Frage zusammen mit einem Screenshot. Unimodale Modelle verarbeiten jeweils nur einen Ausschnitt, sodass Entwickler separate Systeme zusammenfügen müssen. Multimodale KI fasst diese Pipeline in einem einzigen Modell zusammen, reduziert die Fehlerfortpflanzung und sorgt für natürlichere Interaktionen.
Der Ansatz erschließt außerdem Fähigkeiten, die rein text- oder bildbasierte Systeme nicht erreichen, etwa das Beschreiben eines Bildes, das Erzeugen eines Bildes aus einem Absatz, das Beantworten von Fragen zu einem Diagramm oder das Transkribieren und Übersetzen eines gesprochenen Gesprächs. Daher ist multimodale KI heute die Standardarchitektur in vielen Verbraucherassistenten, Kreativwerkzeugen, Robotik-Plattformen und Barrierefreiheitsprodukten und stellt die führende Richtung in der Forschung an Frontier-Modellen dar.
Wichtige Typen
- Vision-Sprach-Modelle: verarbeiten Bilder und Text gemeinsam für Aufgaben wie Bildunterschriften, visuelle Frage-Antwort-Systeme und Bilderzeugung aus Prompts.
- Sprach- und Audiomodelle: kombinieren gesprochene Eingaben mit Text oder Bildern und bilden die Grundlage für Sprachassistenten und Transkriptionssysteme.
- Videoverstehensmodelle: verarbeiten zeitliche visuelle Daten, häufig zusammen mit Audio und Untertiteln, für Zusammenfassungen und Aktionserkennung.
- Any-to-Any-Modelle: vereinheitlichte Systeme, die über mehrere Modalitäten wie Text, Bilder und Audio hinweg Eingaben verarbeiten und Ausgaben erzeugen können – über eine einzige Schnittstelle.
- Embodied- und Sensor-Fusion-Modelle: kombinieren Bild, Sprache und Signale wie Tiefe oder Berührung, um Roboter und autonome Systeme zu steuern.
Indem Text, Bilder, Audio und Video als erstklassige Eingaben in einem einzigen Modell behandelt werden, bringt multimodale KI Systeme der menschlichen Wahrnehmung näher und ermöglicht Anwendungen, die umfassender über die Welt schlussfolgern.