Che cos'è la Computer Vision?

La computer vision è un ramo dell'IA che consente alle macchine di interpretare immagini e video. Scopri come funziona, dove viene utilizzata e perché è importante.

La computer vision è un ramo dell'intelligenza artificiale che consente ai computer e alle macchine di vedere, elaborare e interpretare le informazioni visive provenienti dal mondo. Combinando telecamere, sensori e modelli di machine learning, i sistemi di computer vision possono rilevare oggetti, riconoscere volti, leggere testi, tracciare i movimenti e dare un senso a immagini e video con una scala e una velocità ben superiori alle capacità umane.

Come funziona la Computer Vision

La computer vision moderna si basa sul deep learning, molto spesso sulle reti neurali convoluzionali (CNN) e, più di recente, su architetture basate su transformer. Un modello viene addestrato su grandi dataset etichettati, come milioni di foto taggate con gli oggetti che contengono. Durante l'addestramento, la rete impara a riconoscere schemi ricorrenti: bordi, trame, forme e, infine, oggetti completi.

Al momento dell'inferenza, il sistema cattura un'immagine o un fotogramma video, la passa attraverso il modello addestrato e produce delle previsioni. Ad esempio, data una foto di una strada, il modello potrebbe etichettare ogni pixel per classe, segnando strade, pedoni, segnali stradali e altre auto. La stessa pipeline alimenta compiti più semplici come il riconoscimento ottico dei caratteri (OCR), in cui il modello converte il testo scritto a mano o stampato in un'immagine in caratteri leggibili dalla macchina.

Perché è importante

La computer vision è lo strato percettivo dell'IA per il mondo fisico. È alla base di strumenti di diagnostica per immagini che aiutano i radiologi a individuare i tumori, dei veicoli autonomi che si muovono nel traffico, dei sistemi di produzione che rilevano difetti sulle linee di assemblaggio e delle applicazioni retail che automatizzano il pagamento. Alimenta anche funzionalità quotidiane come lo sblocco facciale del telefono, la ricerca per immagini, i filtri AR e la videosorveglianza. Trasformando i pixel in dati strutturati, la computer vision permette alle macchine di agire in base a ciò che vedono, aprendo l'automazione in ambiti in cui il mondo fisico e quello digitale si incontrano.

Compiti e tipologie principali

  • Classificazione delle immagini: assegnare una singola etichetta a un'intera immagine, come "gatto" o "cane".
  • Rilevamento degli oggetti: disegnare dei riquadri attorno a ciascun oggetto di interesse e identificarlo.
  • Segmentazione delle immagini: etichettare ogni pixel per classe per una comprensione dettagliata della scena.
  • Riconoscimento facciale: identificare o verificare una persona a partire dai tratti del viso.
  • Riconoscimento ottico dei caratteri (OCR): estrarre testo stampato o scritto a mano dalle immagini.
  • Stima e tracciamento della posa: rilevare la posizione e il movimento di persone o oggetti nel tempo.

La computer vision è diventata uno dei rami dell'IA più impiegati a livello commerciale perché i dati visivi sono abbondanti, l'hardware sottostante (GPU e sensori specializzati) è maturo e benchmark standardizzati come ImageNet hanno guidato un rapido miglioramento dei modelli fin dai primi anni 2010.

Potrebbe interessarti anche

Articoli correlati