📖

¿Qué es LLM de código abierto?

Un LLM de código abierto es un modelo de lenguaje grande publicado con pesos y licencias públicos que permiten a cualquier persona ejecutarlo, inspeccionarlo y modificarlo. Descubre cómo funcionan estos modelos y por qué son importantes.

Un LLM de código abierto es un modelo de lenguaje grande cuyos parámetros entrenados, y a menudo el código de entrenamiento e inferencia asociado, se publican al público bajo una licencia que permite descargar, inspeccionar, ajustar y redistribuir el modelo. La idea sigue la tradición del software de código abierto: al compartir el funcionamiento interno de un modelo, cualquier persona, desde desarrolladores individuales hasta grandes empresas, puede construir sobre él en lugar de depender únicamente de API cerradas. En la práctica, la etiqueta cubre un amplio espectro, desde lanzamientos totalmente abiertos que publican datos y recetas de entrenamiento hasta lanzamientos de "pesos abiertos" que comparten el modelo pero mantienen los datos y métodos parcialmente propietarios.

Cómo funcionan los LLM de código abierto

Entrenar un LLM es un proceso de dos etapas. Primero, el modelo aprende patrones generales del lenguaje prediciendo el siguiente token en enormes corpus de texto: esto se llama preentrenamiento. Segundo, se refina con retroalimentación humana o ejemplos seleccionados para que sus respuestas sean más útiles, una etapa conocida como post-entrenamiento o alineación. En un lanzamiento de LLM de código abierto, el artefacto más importante es el archivo de pesos: una instantánea de los miles de millones (o billones) de parámetros numéricos que codifican lo que el modelo aprendió.

Una vez que los pesos se publican, normalmente en un hub como Hugging Face, cualquier persona con suficiente memoria GPU puede cargar el modelo localmente, ejecutar inferencia en su propio hardware, ajustarlo con un conjunto de datos personalizado o incluso continuar su preentrenamiento para un nuevo dominio. Un modelo pequeño creado por la comunidad como Mistral puede ejecutarse en un portátil, mientras que un modelo de 70 mil millones de parámetros necesita varias GPUs de gama alta. Como los pesos son visibles, los investigadores también pueden analizar el modelo en busca de sesgos, problemas de seguridad y capacidades, una auditabilidad que las API cerradas no permiten.

Por qué importa

Los LLM de código abierto otorgan a las organizaciones control sobre el coste, la privacidad de los datos y el despliegue. Un hospital, un bufete de abogados o una agencia gubernamental puede ejecutar un modelo en sus propios servidores para que las instrucciones confidenciales nunca salgan de la red. Los desarrolladores en regiones con acceso limitado a API aún pueden crear aplicaciones de IA. Los investigadores pueden estudiar cómo se comportan los modelos y reproducir resultados publicados, lo que fortalece la ciencia de la seguridad en IA.

Los lanzamientos abiertos también crean presión competitiva sobre los proveedores cerrados, aceleran la innovación al permitir que las comunidades aunen mejoras y reducen el bloqueo con un proveedor. Las compensaciones son reales: los pesos abiertos pueden usarse indebidamente para desinformación o herramientas dañinas, y el panorama de licencias es desigual: algunos modelos "abiertos" restringen el uso comercial o imponen cláusulas de caso de uso que se alejan de la definición clásica de código abierto promovida por la Open Source Initiative.

Ejemplos clave y tipos de licencias

  • La familia Llama de Meta: modelos de pesos abiertos de alta calidad con una licencia que permite el uso comercial pero incluye restricciones de caso de uso y una cláusula de ingresos basada en el tamaño.
  • Modelos Mistral y Mixtral: publicados bajo la permisiva licencia Apache 2.0, que permite un amplio uso comercial y derivados.
  • DeepSeek, Qwen e Yi: modelos de pesos abiertos desarrollados en China que han alcanzado rápidamente a sus homólogos occidentales en benchmarks.
  • OLMo de Allen AI: un lanzamiento totalmente abierto que incluye código de entrenamiento, datos y herramientas de evaluación, no solo los pesos.
  • Pythia y BLOOM: modelos orientados a la investigación publicados con amplia documentación para estudios de reproducibilidad.

Ya lo llames de código abierto o de pesos abiertos, el cambio práctico es significativo: las capacidades que antes vivían solo dentro de un puñado de endpoints de API ahora residen en un directorio público que cualquier desarrollador puede clonar. Para los equipos que eligen entre construir sobre API cerradas o autoinstalar, los factores decisivos suelen ser la gobernanza de datos, los requisitos de latencia, el coste total de propiedad y cuánta personalización necesita la aplicación.

Preguntas frecuentes

Is Llama truly open-source?
It depends on your definition. Meta's Llama models publish their weights and allow commercial use, but the license includes use-case restrictions and a clause for very large commercial deployments. By the strict Open Source Initiative definition, it is usually classified as "open-weight" rather than fully open-source, because not all training artifacts are released and redistribution is constrained.
What is the difference between open-source and open-weight LLMs?
Open-weight models release the trained parameters so anyone can run and fine-tune them, but may withhold training data or code. Open-source LLMs aim to release everything — weights, training code, data, and recipes — under a permissive license. The stricter the release, the easier it is for independent researchers to reproduce and audit the model.
Can I run an open-source LLM on my own computer?
Smaller open-source models in the 1B–8B parameter range can run on consumer hardware, sometimes on a laptop with sufficient RAM or a single consumer GPU. Larger models in the 30B–70B range typically need multiple high-end data-center GPUs and significant memory. Quantized versions, which store weights in lower precision, make running bigger models on modest hardware more feasible.
Why would a company choose an open-source LLM over a closed API?
Common reasons include data privacy (prompts never leave the company), predictable costs at scale, the ability to fine-tune on proprietary data, no vendor lock-in, and compliance with regulations that restrict sending data to third-party APIs. The trade-off is that the company takes on the operational burden of hosting, updating, and securing the model itself.