Una red neuronal es un tipo de modelo de aprendizaje automático compuesto por capas de unidades computacionales simples, llamadas neuronas o nodos, que están conectadas entre sí con fuerzas ajustables llamadas pesos. Cada neurona toma números, los multiplica por pesos, añade un sesgo y pasa el resultado por una función no lineal. Al apilar muchas de estas capas, una red neuronal puede aprender a mapear entradas complejas, como píxeles, palabras o formas de onda de audio, a salidas como etiquetas de clase, frases traducidas o imágenes generadas.
Cómo funciona una red neuronal
Durante el entrenamiento, se alimenta a la red con ejemplos (por ejemplo, miles de fotos etiquetadas como "gato" o "perro") y esta produce una predicción. Una función de pérdida mide cuán equivocada es esa predicción, y un algoritmo llamado retropropagación calcula cómo contribuyó cada peso de la red al error. Un optimizador, normalmente una variante del descenso de gradiente, ajusta entonces ligeramente cada peso para reducir el error. Repetir este proceso con muchos ejemplos hace que los pesos de la red se estabilicen en valores que capturan regularidades estadísticas útiles en los datos.
La profundidad de una red importa: las primeras capas tienden a aprender características simples como bordes o trazos de letras, mientras que las capas más profundas combinan esas características en conceptos más ricos como formas, palabras u objetos. Esta jerarquía de representaciones es lo que hace que las redes neuronales profundas sean tan eficaces en tareas de tipo perceptivo. Un resumen ampliamente citado de la arquitectura y el algoritmo de aprendizaje está disponible en la revisión del aprendizaje profundo de LeCun, Bengio y Hinton en Nature de 2015.
Por qué importa
Las redes neuronales sustentan la mayor parte de las capacidades de IA que se han vuelto populares en la década de 2020, incluida la clasificación de imágenes, el reconocimiento de voz, la traducción automática, los sistemas de recomendación y los grandes modelos de lenguaje, como los modelos que impulsan a los asistentes conversacionales. Destacan en problemas donde las reglas escritas a mano son frágiles pero existen grandes cantidades de datos etiquetados o no etiquetados, porque la misma arquitectura puede reentrenarse para nuevos dominios con relativamente pocos cambios de código.
Tipos clave
- Red neuronal feedforward (FNN): la forma más simple; las señales se mueven en una sola dirección, de la entrada a la salida. Un perceptrón multicapa es el ejemplo canónico.
- Red neuronal convolucional (CNN): utiliza filtros con pesos compartidos, ideal para imágenes y vídeo.
- Red neuronal recurrente (RNN): tiene bucles que retienen una memoria de pasos anteriores, adecuada para secuencias como texto o datos de sensores; en gran medida ha sido sustituida por los transformers en el ámbito del lenguaje.
- Transformer: una arquitectura moderna basada en la atención en lugar de la recurrencia. Es la columna vertebral de los grandes modelos de lenguaje actuales y de muchos sistemas de visión.
- Red generativa adversarial (GAN): empareja un generador con un discriminador que aprende a distinguir muestras reales de falsas, y se utiliza para la síntesis de imágenes.
Cada variante reorganiza o especializa la receta básica de neuronas y pesos para adaptarse a un tipo concreto de datos, pero el principio subyacente —aprender pesos mediante descenso de gradiente sobre una pérdida— sigue siendo el mismo.