Meta enfrenta fuertes críticas tras el reciente lanzamiento de sus nuevos modelos de inteligencia artificial Llama 4, conocidos como Llama 4 Scout y Llama 4 Maverick. La compañía, que prometía un avance revolucionario en capacidad de contexto y rendimiento, se encuentra ahora en el centro de una controversia que cuestiona tanto la ética de sus prácticas como la verdadera calidad de sus productos.
Manipulación en benchmarks: ¿Resultados reales o marketing inflado?
Uno de los puntos más polémicos se centra en la participación de Llama 4 Maverick en el conocido benchmark LMArena. Este espacio permite comparar modelos de IA de manera ciega, evaluando respuestas sin conocer la identidad del modelo detrás. Según los expertos, Meta habría manipulado los resultados al presentar un modelo optimizado específicamente para superar estas pruebas, en lugar de un modelo general que pueda ser utilizado en condiciones reales.
Además, sin ir más lejos, Meta subió esta imagen en sus redes sociales:

Donde se podía apreciar lo siguiente:


Lo que significa traducido al español "La prueba de LMArena se realizó utilizando Llama 4 Maverick optimizado para la conversación."
Donde parece que admiten de alguna manera haber optimizado el modelo para dicho test/conversación.
El modelo de Meta aparece en la parte superior de la tabla, con puntuaciones que incluso superan a modelos tan potentes como GPT-4.5 o Gemini 2.5 Pro. Sin embargo, como dicen los expertos, y además se puede ver en las propias publicaciones de Meta parece que la versión presentada era un modelo especializado en interacción con usuario y no un modelo generalista, violando así las condiciones de LMArena.
Fallos en el rendimiento del contexto prometido
Uno de los aspectos más destacados del lanzamiento de Llama 4 fue su supuesta capacidad para manejar un contexto de hasta 10 millones de tokens, una cifra significativamente superior a la de otros modelos líderes en el mercado. Meta promocionó esta característica como su gran avance en la gestión de información a gran escala.
Sin embargo, pruebas posteriores revelaron que el rendimiento de Llama 4 en este aspecto está muy lejos de lo prometido. Aunque se presumía que podía manejar enormes cantidades de información, el desempeño en tareas prácticas y benchmarks literarios, como Fiction Live Bench, arrojó resultados muy inferiores a los de otros modelos, especialmente en contextos superiores a los 120.000 tokens.

Restricciones y críticas sobre su supuesto código abierto
A pesar de que Meta ha promocionado a Llama 4 como un modelo de código abierto, la realidad parece ser muy distinta. Según la Open Source Initiative, la licencia de Llama 4 no cumple con los criterios fundamentales de un software verdaderamente abierto. Las restricciones impuestas a su uso, especialmente para empresas con más de 700 millones de usuarios activos mensuales, y la obligación de incluir la palabra “Llama” en cualquier modelo derivado, contradicen los principios básicos del open source.
Además, la política de atribución obligatoria y las limitaciones en campos de uso han generado malestar en la comunidad tecnológica, que acusa a Meta de publicitar Llama 4 como código abierto de manera engañosa.
Renuncias estratégicas y tensiones internas
Otro aspecto que ha contribuido al escándalo ha sido la inesperada renuncia de Joelle Pineau, vicepresidenta de investigación de inteligencia artificial de Meta, quien abandonará la compañía el próximo 30 de mayo tras ocho años en la empresa. Aunque Pineau ha declarado que su salida se debe a motivos personales, algunos analistas sugieren que podría estar relacionada con las polémicas que rodean a Llama 4 y el manejo de su lanzamiento.
Esta salida, junto con otras renuncias dentro del equipo de IA de Meta, ha despertado sospechas sobre una posible crisis interna. Según algunos informes, la presión por lanzar Llama 4 antes de tiempo, incluso un sábado, habría contribuido a esta situación inusual.
¿Marketing o revolución real?
A pesar de las críticas, Meta mantiene su postura de que Llama 4 representa un avance significativo en la inteligencia artificial. Sin embargo, las dudas sobre la autenticidad de sus benchmarks, la efectividad de su capacidad de contexto y las restricciones impuestas a su uso sugieren que la compañía enfrenta un desafío complejo para convencer a la comunidad tecnológica y a sus propios empleados de que este lanzamiento no ha sido simplemente un movimiento de marketing inflado.
Meta aún tiene tiempo para demostrar si Llama 4 puede cumplir con lo prometido o si, por el contrario, su reputación sufrirá un duro golpe por estas controversias.