Qu'est-ce que la vision par ordinateur ?

La vision par ordinateur est une branche de l'IA qui permet aux machines d'interpréter les images et les vidéos. Découvrez comment elle fonctionne, où elle est utilisée et pourquoi elle est importante.

La vision par ordinateur est une branche de l'intelligence artificielle qui permet aux ordinateurs et aux machines de voir, traiter et interpréter les informations visuelles du monde. En combinant caméras, capteurs et modèles d'apprentissage automatique, les systèmes de vision par ordinateur peuvent détecter des objets, reconnaître des visages, lire du texte, suivre des mouvements et donner du sens aux images et aux vidéos à une échelle et une vitesse bien supérieures aux capacités humaines.

Comment fonctionne la vision par ordinateur

La vision par ordinateur moderne repose sur l'apprentissage profond, le plus souvent sur des réseaux neuronaux convolutifs (CNN) et, plus récemment, sur des architectures à base de transformers. Un modèle est entraîné sur de grands jeux de données étiquetés, comme des millions de photos annotées avec les objets qu'elles contiennent. Pendant l'entraînement, le réseau apprend à reconnaître des motifs récurrents : contours, textures, formes, et finalement des objets entiers.

Au moment de l'inférence, le système capture une image ou une trame vidéo, la fait passer dans le modèle entraîné et produit des prédictions. Par exemple, à partir d'une photo d'une rue, le modèle peut étiqueter chaque pixel par classe, en marquant les routes, les piétons, les panneaux de signalisation et les autres voitures. Le même pipeline prend en charge des tâches plus simples comme la reconnaissance optique de caractères (OCR), où le modèle convertit du texte manuscrit ou imprimé dans une image en caractères lisibles par machine.

Pourquoi c'est important

La vision par ordinateur est la couche perceptive de l'IA pour le monde physique. Elle sous-tend les outils d'imagerie médicale qui aident les radiologues à détecter des tumeurs, les véhicules autonomes qui naviguent dans des rues animées, les systèmes de fabrication qui détectent les défauts sur les chaînes d'assemblage, et les applications零售 qui automatisent les paiements. Elle alimente également des fonctionnalités du quotidien comme la reconnaissance faciale sur les téléphones, la recherche d'images, les filtres de RA et la vidéosurveillance. En transformant les pixels en données structurées, la vision par ordinateur permet aux machines d'agir sur ce qu'elles voient, ouvrant la voie à l'automatisation dans les domaines où le monde physique et le monde numérique se rencontrent.

Tâches et types clés

  • Classification d'images : attribuer une seule étiquette à une image entière, comme « chat » ou « chien ».
  • Détection d'objets : dessiner des boîtes englobantes autour de chaque objet d'intérêt et l'identifier.
  • Segmentation d'images : étiqueter chaque pixel par classe pour une compréhension fine de la scène.
  • Reconnaissance faciale : identifier ou vérifier une personne à partir de ses traits du visage.
  • Reconnaissance optique de caractères (OCR) : extraire du texte imprimé ou manuscrit à partir d'images.
  • Estimation et suivi de pose : détecter la position et le mouvement de personnes ou d'objets au fil du temps.

La vision par ordinateur est devenue l'une des branches de l'IA les plus déployées commercialement, car les données visuelles sont abondantes, le matériel sous-jacent (GPU et capteurs spécialisés) est mature, et des benchmarks standardisés comme ImageNet ont favorisé une amélioration rapide des modèles depuis le début des années 2010.

Vous aimerez aussi

Articles connexes