Computer Vision ist ein Teilbereich der künstlichen Intelligenz, der es Computern und Maschinen ermöglicht, visuelle Informationen aus der Welt zu sehen, zu verarbeiten und zu interpretieren. Durch die Kombination von Kameras, Sensoren und Modellen des maschinellen Lernens können Computer-Vision-Systeme Objekte erkennen, Gesichter identifizieren, Text lesen, Bewegungen verfolgen und Bilder sowie Videos in einem Umfang und mit einer Geschwindigkeit verstehen, die weit über die menschlichen Fähigkeiten hinausgehen.
Wie Computer Vision funktioniert
Moderne Computer Vision basiert auf Deep Learning, meist auf Convolutional Neural Networks (CNNs) und neuerdings auch auf transformerbasierten Architekturen. Ein Modell wird mit großen beschrifteten Datensätzen trainiert, etwa Millionen von Fotos, die mit den enthaltenen Objekten markiert sind. Während des Trainings lernt das Netzwerk, wiederkehrende Muster zu erkennen: Kanten, Texturen, Formen und schließlich ganze Objekte.
Zum Zeitpunkt der Inferenz erfasst das System ein Bild oder ein Videoframe, führt es durch das trainierte Modell und gibt Vorhersagen aus. Erhält das Modell beispielsweise ein Foto einer Straße, klassifiziert es möglicherweise jedes Pixel und markiert Straßen, Fußgänger, Verkehrsschilder und andere Autos. Die gleiche Pipeline ermöglicht auch einfachere Aufgaben wie Optical Character Recognition (OCR), bei der das Modell handgeschriebenen oder gedruckten Text in einem Bild in maschinenlesbare Zeichen umwandelt.
Warum es wichtig ist
Computer Vision ist die Wahrnehmungsschicht der KI für die physische Welt. Sie bildet die Grundlage für medizinische Bildgebungstools, die Radiologen dabei helfen, Tumore zu erkennen, für autonome Fahrzeuge, die sich durch belebte Straßen navigieren, für Fertigungssysteme, die Defekte auf Montagebändern erkennen, und für Einzelhandelsanwendungen, die den Bezahlvorgang automatisieren. Sie treibt auch alltägliche Funktionen wie Gesichtsentsperrung bei Smartphones, Bildersuche, AR-Filter und Sicherheitsüberwachung an. Indem sie Pixel in strukturierte Daten verwandelt, ermöglicht Computer Vision es Maschinen, auf das zu reagieren, was sie sehen, und eröffnet so Automatisierung in Bereichen, in denen sich physische und digitale Welt begegnen.
Wichtige Aufgaben und Typen
- Bildklassifikation: Vergabe eines einzelnen Labels für ein gesamtes Bild, etwa „Katze" oder „Hund".
- Objekterkennung: Zeichnen von Bounding Boxes um jedes relevante Objekt und Identifizierung desselben.
- Bildsegmentierung: Beschriftung jedes Pixels nach Klasse für ein feinkörniges Szenenverständnis.
- Gesichtserkennung: Identifizierung oder Verifizierung einer Person anhand ihrer Gesichtszüge.
- Optical Character Recognition (OCR): Extraktion von gedrucktem oder handgeschriebenem Text aus Bildern.
- Pose-Estimation und Tracking: Erkennung von Position und Bewegung von Personen oder Objekten über die Zeit.
Computer Vision ist einer der kommerziell am weitesten verbreiteten Teilbereiche der KI geworden, da visuelle Daten reichlich vorhanden sind, die zugrunde liegende Hardware (GPUs und spezielle Sensoren) ausgereift ist und standardisierte Benchmarks wie ImageNet seit den frühen 2010er-Jahren rasante Modellverbesserungen vorangetrieben haben.