A visão computacional é um ramo da inteligência artificial que permite que computadores e máquinas vejam, processem e interpretem informação visual do mundo. Ao combinar câmaras, sensores e modelos de aprendizagem automática, os sistemas de visão computacional conseguem detetar objetos, reconhecer rostos, ler texto, acompanhar movimentos e dar sentido a imagens e vídeo a uma escala e velocidade muito além da capacidade humana.
Como funciona a visão computacional
A visão computacional moderna assenta em aprendizagem profunda, sobretudo redes neuronais convolucionais (CNN) e, mais recentemente, arquiteturas baseadas em transformadores. Um modelo é treinado com grandes conjuntos de dados rotulados, como milhões de fotos etiquetadas com os objetos que contêm. Durante o treino, a rede aprende a reconhecer padrões recorrentes: contornos, texturas, formas e, por fim, objetos completos.
No momento da inferência, o sistema capta uma imagem ou frame de vídeo, processa-o através do modelo treinado e produz previsões. Por exemplo, perante uma fotografia de uma rua, o modelo pode classificar cada pixel por categoria, marcando estradas, peões, sinais de trânsito e outros carros. O mesmo pipeline suporta tarefas mais simples, como o reconhecimento ótico de caracteres (OCR), em que o modelo converte texto manuscrito ou impresso numa imagem em caracteres legíveis por máquina.
Porque é importante
A visão computacional é a camada percetiva da IA para o mundo físico. Suporta ferramentas de imagiologia médica que ajudam radiologistas a detetar tumores, veículos autónomos que navegam em ruas movimentadas, sistemas de fabrico que identificam defeitos em linhas de montagem e aplicações de retalho que automatizam o checkout. Também suporta funcionalidades do dia a dia, como o desbloqueio facial nos telemóveis, a pesquisa por imagem, filtros de RA e vigilância de segurança. Ao transformar pixels em dados estruturados, a visão computacional permite que as máquinas ajem com base no que veem, abrindo caminho à automação em domínios onde o mundo físico e o digital se cruzam.
Tarefas e tipos principais
- Classificação de imagem: atribuir uma única etiqueta a uma imagem inteira, como "gato" ou "cão".
- Deteção de objetos: desenhar caixas delimitadoras à volta de cada objeto de interesse e identificá-lo.
- Segmentação de imagem: rotular cada pixel por classe para uma compreensão detalhada da cena.
- Reconhecimento facial: identificar ou verificar uma pessoa a partir das suas características faciais.
- Reconhecimento ótico de caracteres (OCR): extrair texto impresso ou manuscrito de imagens.
- Estimação e seguimento de pose: detetar a posição e o movimento de pessoas ou objetos ao longo do tempo.
A visão computacional tornou-se um dos ramos da IA com maior implementação comercial porque os dados visuais são abundantes, o hardware subjacente (GPUs e sensores especializados) é成熟, e benchmarks padronizados como o ImageNet impulsionaram uma rápida melhoria dos modelos desde o início da década de 2010.