¿Qué es la visión por computador?

La visión por computador es una rama de la IA que permite a las máquinas interpretar imágenes y vídeo. Descubre cómo funciona, dónde se utiliza y por qué es importante.

HyperStore · Publicado el 2026-06-20

#artificial intelligence #computer vision #deep learning #image recognition #machine learning

La visión por computador es una rama de la inteligencia artificial que permite a los ordenadores y las máquinas ver, procesar e interpretar información visual del mundo. Al combinar cámaras, sensores y modelos de aprendizaje automático, los sistemas de visión por computador pueden detectar objetos, reconocer rostros, leer texto, seguir el movimiento y dar sentido a imágenes y vídeo a una escala y velocidad muy por encima de la capacidad humana.

Cómo funciona la visión por computador

La visión por computador moderna se basa en el aprendizaje profundo, normalmente en redes neuronales convolucionales (CNN) y, más recientemente, en arquitecturas basadas en transformers. Un modelo se entrena con grandes conjuntos de datos etiquetados, como millones de fotos etiquetadas con los objetos que contienen. Durante el entrenamiento, la red aprende a reconocer patrones recurrentes: bordes, texturas, formas y, finalmente, objetos completos.

En el momento de la inferencia, el sistema captura una imagen o un fotograma de vídeo, lo pasa por el modelo entrenado y genera predicciones. Por ejemplo, dada una foto de una calle, el modelo puede etiquetar cada píxel por clase, marcando carreteras, peatones, señales de tráfico y otros coches. El mismo proceso impulsa tareas más sencillas como el reconocimiento óptico de caracteres (OCR), donde el modelo convierte texto manuscrito o impreso de una imagen en caracteres legibles por máquina.

Por qué es importante

La visión por computador es la capa perceptual de la IA para el mundo físico. Es la base de herramientas de imagen médica que ayudan a los radiólogos a detectar tumores, vehículos autónomos que navegan por calles concurridas, sistemas de fabricación que detectan defectos en líneas de montaje y aplicaciones de retail que automatizan el pago. También impulsa funciones cotidianas como el desbloqueo facial en los teléfonos, la búsqueda de imágenes, los filtros de RA y la videovigilancia de seguridad. Al convertir píxeles en datos estructurados, la visión por computador permite a las máquinas actuar en función de lo que ven, abriendo la automatización en ámbitos donde se encuentran el mundo físico y el digital.

Tareas y tipos clave

Clasificación de imágenes: asignar una única etiqueta a una imagen completa, como "gato" o "perro".
Detección de objetos: dibujar cuadros delimitadores alrededor de cada objeto de interés e identificarlo.
Segmentación de imágenes: etiquetar cada píxel por clase para una comprensión detallada de la escena.
Reconocimiento facial: identificar o verificar a una persona a partir de sus rasgos faciales.
Reconocimiento óptico de caracteres (OCR): extraer texto impreso o manuscrito de imágenes.
Estimación y seguimiento de la pose: detectar la posición y el movimiento de personas u objetos a lo largo del tiempo.

La visión por computador se ha convertido en una de las ramas de la IA con mayor despliegue comercial porque los datos visuales son abundantes, el hardware subyacente (GPUs y sensores especializados) está consolidado y los benchmarks estandarizados como ImageNet han impulsado una rápida mejora de los modelos desde principios de la década de 2010.

Cómo funciona la visión por computador

Por qué es importante

Tareas y tipos clave

También te puede interesar

¿Qué es el deep learning?

¿Qué es la IA generativa?

¿Qué es el procesamiento del lenguaje natural (PLN)?

Artículos relacionados

Mejores herramientas de IA para investigadores: guía práctica para 2025

¿Qué es el deep learning?

¿Qué es la IA generativa?