Meta ha presentado oficialmente Llama 4, su más reciente familia de modelos de IA open source que promete revolucionar el sector con una potencia nunca antes vista en modelos de su categoría. Con tres versiones distintas Llama 4 Scout, Llama 4 Maverick y Llama 4 Behemoth. Meta busca consolidarse como un referente en la inteligencia artificial de código abierto y plantarle cara a gigantes como OpenAI y Google.
El lanzamiento de Llama 4 no es simplemente la introducción de modelos más potentes. Meta ha decidido apostar por un enfoque innovador, combinando su ya conocida filosofía open source con arquitecturas avanzadas que buscan llevar las capacidades multimodales a un nuevo nivel. Este nuevo sistema de modelos se presenta como la piedra angular de un ecosistema que, según la propia Meta, pretende redefinir la manera en la que interactuamos con la inteligencia artificial en entornos empresariales, creativos y de comunicación personal.
Innovación Multimodal y Mixture of Experts: La arquitectura que lo cambia todo
Uno de los aspectos más destacados de Llama 4 es la implementación de la arquitectura Mixture of Experts (MoE), un diseño que permite que un único token active únicamente una pequeña fracción de los parámetros totales del modelo. Esta característica mejora significativamente la eficiencia computacional, reduciendo los costes operativos y mejorando el rendimiento en tareas específicas sin sacrificar la calidad de los resultados.
La arquitectura MoE utiliza un sistema de enrutamiento que distribuye la carga de trabajo entre diversos expertos, lo que permite que el modelo responda con mayor precisión y rapidez a diferentes tipos de tareas. Meta ha explicado que, gracias a esta estructura, es posible desplegar Llama 4 en dispositivos más modestos sin perder capacidad operativa. Esta estrategia busca democratizar el acceso a la IA además de posicionar a Meta como líder en eficiencia tecnológica.
Otra característica clave es la integración de fusión temprana (early fusion). Este proceso permite que los modelos combinen de manera fluida información proveniente de diferentes modalidades, como texto, imágenes y videos, desde las primeras capas de procesamiento. Al utilizar un enfoque de fusión temprana, Llama 4 es capaz de aprender de datos multimodales de manera más eficiente, mejorando su desempeño en tareas complejas que requieren análisis simultáneo de distintos tipos de información.
Este enfoque permite que Llama 4 se entrene con datasets masivos que incluyen más de 30 billones de tokens, duplicando la cantidad utilizada en la generación anterior, Llama 3. Además, el uso de técnicas avanzadas de entrenamiento como MetaP y la adopción de precisión FP8 aseguran un alto rendimiento sin comprometer la calidad.
Modelos presentados: Scout, Maverick y Behemoth
La familia Llama 4 está compuesta por tres modelos principales que se diferencian por su potencia, estructura y objetivos específicos. Meta ha diseñado cada uno de ellos para satisfacer diferentes necesidades dentro del ecosistema de IA.
Llama 4 Scout
El modelo más accesible de la serie es Llama 4 Scout, que cuenta con 17.000 millones de parámetros activos y 16 expertos. Este modelo está diseñado para ofrecer un rendimiento sobresaliente a bajo coste, pudiendo funcionar en una sola NVIDIA H100 GPU gracias a su arquitectura eficiente basada en Mixture of Experts (MoE).
Pero lo que realmente destaca de Llama 4 Scout es su capacidad de gestionar un contexto de hasta 10 millones de tokens. Este avance permite procesar grandes volúmenes de información de manera simultánea, lo que lo convierte en la opción ideal para tareas complejas que requieren análisis extenso y detallado. La capacidad de contexto ampliada también facilita tareas de razonamiento prolongado, creación de contenido masivo y análisis de bases de datos extensas.
A nivel de benchmarks, Llama 4 Scout ha demostrado un rendimiento superior en comparación con otros modelos open source, como Gemma 3, Gemini 2.0 Flash-Lite y Mistral 3.1. Su integración con plataformas populares como WhatsApp, Messenger e Instagram Direct a través de Hugging Face y llama.com también demuestra su versatilidad y accesibilidad para los desarrolladores.
Llama 4 Maverick
Ubicado en el rango medio de la serie, Llama 4 Maverick representa el equilibrio perfecto entre potencia y eficiencia. Este modelo cuenta con 17.000 millones de parámetros activos, 128 expertos y un total de 400.000 millones de parámetros, lo que lo convierte en una opción robusta para aplicaciones de asistencia conversacional y análisis complejos.
El uso de capas mixtas y MoE le permite manejar tareas avanzadas con una eficiencia impresionante, reduciendo significativamente el coste operativo en comparación con modelos equivalentes de la competencia. Según las pruebas realizadas por Meta, Llama 4 Maverick ha logrado un rendimiento comparable a modelos de última generación como DeepSeek v3 en tareas de razonamiento y codificación, mientras que su coste operativo es significativamente menor.
En términos de evaluación, Llama 4 Maverick ha logrado un ELO de 1417 en LMArena, un indicador de su potencia en tareas de conversación y razonamiento profundo. Su capacidad de comprender imágenes y texto de manera integrada también lo posiciona como un modelo ideal para aplicaciones multimodales avanzadas.
Llama 4 Behemoth (En desarrollo)
La verdadera joya de la corona de esta serie es Llama 4 Behemoth. Aunque aún se encuentra en fase de entrenamiento, sus especificaciones lo convierten en un monstruo de la inteligencia artificial. Este modelo cuenta con 288.000 millones de parámetros activos, 16 expertos y un total de casi dos billones de parámetros (trillones en terminología americana).
Con un diseño multimodal avanzado, Llama 4 Behemoth ha demostrado ser extremadamente competente en tareas relacionadas con matemáticas, razonamiento, codificación e imágenes. Meta espera que este modelo sirva como un maestro para mejorar la calidad de sus otros modelos, gracias a su capacidad de procesar grandes volúmenes de datos de manera simultánea y eficiente.
Además, Meta está implementando nuevas técnicas de post-entrenamiento que combinan aprendizaje por refuerzo continuo con estrategias de filtrado dinámico. Este enfoque permite que Llama 4 Behemoth aprenda y mejore constantemente, adaptándose a nuevos desafíos y datos en tiempo real.
Fuente: Meta