O que é a Visão Computacional?

A visão computacional é um ramo da IA que permite às máquinas interpretar imagens e vídeo. Saiba como funciona, onde é utilizada e por que é importante.

A visão computacional é um ramo da inteligência artificial que permite que computadores e máquinas vejam, processem e interpretem informação visual do mundo. Ao combinar câmaras, sensores e modelos de aprendizagem automática, os sistemas de visão computacional conseguem detetar objetos, reconhecer rostos, ler texto, acompanhar movimentos e dar sentido a imagens e vídeo a uma escala e velocidade muito além da capacidade humana.

Como funciona a visão computacional

A visão computacional moderna assenta em aprendizagem profunda, sobretudo redes neuronais convolucionais (CNN) e, mais recentemente, arquiteturas baseadas em transformadores. Um modelo é treinado com grandes conjuntos de dados rotulados, como milhões de fotos etiquetadas com os objetos que contêm. Durante o treino, a rede aprende a reconhecer padrões recorrentes: contornos, texturas, formas e, por fim, objetos completos.

No momento da inferência, o sistema capta uma imagem ou frame de vídeo, processa-o através do modelo treinado e produz previsões. Por exemplo, perante uma fotografia de uma rua, o modelo pode classificar cada pixel por categoria, marcando estradas, peões, sinais de trânsito e outros carros. O mesmo pipeline suporta tarefas mais simples, como o reconhecimento ótico de caracteres (OCR), em que o modelo converte texto manuscrito ou impresso numa imagem em caracteres legíveis por máquina.

Porque é importante

A visão computacional é a camada percetiva da IA para o mundo físico. Suporta ferramentas de imagiologia médica que ajudam radiologistas a detetar tumores, veículos autónomos que navegam em ruas movimentadas, sistemas de fabrico que identificam defeitos em linhas de montagem e aplicações de retalho que automatizam o checkout. Também suporta funcionalidades do dia a dia, como o desbloqueio facial nos telemóveis, a pesquisa por imagem, filtros de RA e vigilância de segurança. Ao transformar pixels em dados estruturados, a visão computacional permite que as máquinas ajem com base no que veem, abrindo caminho à automação em domínios onde o mundo físico e o digital se cruzam.

Tarefas e tipos principais

  • Classificação de imagem: atribuir uma única etiqueta a uma imagem inteira, como "gato" ou "cão".
  • Deteção de objetos: desenhar caixas delimitadoras à volta de cada objeto de interesse e identificá-lo.
  • Segmentação de imagem: rotular cada pixel por classe para uma compreensão detalhada da cena.
  • Reconhecimento facial: identificar ou verificar uma pessoa a partir das suas características faciais.
  • Reconhecimento ótico de caracteres (OCR): extrair texto impresso ou manuscrito de imagens.
  • Estimação e seguimento de pose: detetar a posição e o movimento de pessoas ou objetos ao longo do tempo.

A visão computacional tornou-se um dos ramos da IA com maior implementação comercial porque os dados visuais são abundantes, o hardware subjacente (GPUs e sensores especializados) é成熟, e benchmarks padronizados como o ImageNet impulsionaram uma rápida melhoria dos modelos desde o início da década de 2010.

Também pode gostar

Artigos relacionados