EE. UU. obliga a Anthropic a apagar Fable 5 y Mythos 5: un control de exportación por un «jailbreak»

Por Javier

El 12 de junio, a las 17:21 (hora del Este), Anthropic recibió una orden que pocos esperaban: el gobierno de EE. UU., invocando competencias de seguridad nacional, emitió una directiva de control de exportación que suspende todo acceso a sus modelos Fable 5 y Mythos 5 por parte de cualquier ciudadano extranjero (foreign national). Para cumplir, Anthropic ha tenido que desactivar ambos modelos de golpe para todos sus clientes, sin distinción. El resto de su catálogo —Opus 4.8, Sonnet 4.6, Haiku 4.5— sigue operativo.

Qué ha pasado exactamente

Según la propia Anthropic, el gobierno cree haber tenido conocimiento de un método para jailbreakear Fable 5: esquivar las barreras de seguridad del modelo. La demostración que las autoridades revisaron habría expuesto, en palabras de la compañía, «un pequeño número de vulnerabilidades menores y ya conocidas», que califica de relativamente simples y presentes también en otros modelos. Anthropic discrepa abiertamente: no considera que el hallazgo de un jailbreak concreto justifique retirar un modelo comercial desplegado a cientos de millones de personas. La técnica que ha puesto el foco sobre Fable 5 circula públicamente. La hizo pública elder_plinius (Pliny), una de las figuras más conocidas de la escena de jailbreaking de LLMs, que lleva años documentando cómo saltarse los filtros de los modelos frontera nada más salir. La ironía no se le escapará a nadie en seguridad: hace apenas unos días, la queja sobre Fable era justo la contraria —que sus guardarraíles eran demasiado agresivos para el trabajo profesional legítimo. Ahora se lo retira por, supuestamente, no serlo lo bastante. Como se ha podido vulnerar la protección de Fable 5 El ataque de Pliny the Liberator se ha basado en crear un enjambre de agentes que han ido probando el modelo para determinar los guardarrailes existentes y empezar a generar variaciones de prompts, troceando las preguntas para que pareciesen legítimas y luego recomponer la información recabada para conseguir cosas como fórmulas para la creación de metanfetamina, por ejemplo. En este caso, ha conseguido alcanzar una explicación para un procedimiento químico que estaba bloqueado por Fable incluyendolo en una taxonomía (citándolo en una lista) y luego pidiendo a Fable que ampliase la información para la sección C4, que es donde estaba esa lista de procedimientos. Al no haber mención expresa al procedimiento en el prompt, el modelo siguió adelante y produjo instrucciones detalladas. Imagen

Haciendo creer al modelo que esta aprendiendo a explotar vulnerabilidades en un entorno de laboratorio controlado, ha conseguido que le haga un tutorial de como conseguir un buffer overflow en Linux Imagen

Reemplazando la letra e con su equivalente cirílico (que se escribe igual) ha conseguido una explicación de como obtener una shell remota en linux. Imagen

Otro ejemplo de como Pliny ha conseguido explicaciones contenidas en un libro sobre técnicas ofensivas donde explican como hacer cocteles molotov o fabricarse un machete casero Imagen

Y todo esto, ¿es tan peligroso?

Yo recuerdo que en los 90 tenía una copia del Anarchist Cookbook, que mencionaba cosas que a día de hoy están prohibidas. Toda esta información ha estado disponible al público en general, tan solo había que tener bastante tiempo y buenas capacidades de usar buscadores. Hoy en día la gente cada vez busca menos, y los SEOs super agresivos han enterrado la información detrás de paginas y páginas de contenido comercial. Es aquí donde estos modelos LLM marcan la diferencia, ofrecen acceso rápido, instantáneo y enriquecido a esta información de forma casi instantánea. Ese puede ser el único peligro, que recuperan a la superficie algo que la propia internet por su forma de funcionar, había enterrado o diluido completamente.

Por qué esto importa (y no solo a Anthropic)

Es, que se sepa, la primera vez que se aplica un control de exportación a un modelo de IA comercial de propósito general por un hallazgo de seguridad de este tipo. Lo relevante es el precedente: cualquiera que construya producto sobre modelos frontera acaba de ver que un proveedor puede quedarse sin su modelo estrella de la noche a la mañana por una decisión regulatoria ajena al rendimiento o al SLA. No es una caída técnica de disponibilidad; es geopolítica entrando en tu stack.

Qué hacer si te afecta

Si tenías algo en producción apoyado en Fable 5 o Mythos 5, ahora mismo no existe para ti. La lección es la de siempre en arquitectura resiliente, ahora con nombre y apellidos:

No te acoples a un único modelo. Abstrae el proveedor tras una interfaz y ten un fallback probado. Opus 4.8 es el sustituto natural y no está afectado.
Trata el modelo como una dependencia volátil, no como infraestructura estable: versiona prompts y evals para poder recolocar la carga en otro modelo sin reescribir medio sistema.
Vigila la dimensión regulatoria, no solo el uptime. Restricciones por nacionalidad, controles de exportación o retiradas por seguridad ya forman parte del modelo de amenaza de cualquier producto que dependa de IA de terceros.

Habrá que ver cuánto dura el bloqueo y si Anthropic logra revertirlo. Pero el mensaje para quienes montamos sistemas sobre estos modelos ya está claro: hoy por hoy, la capa de IA es lo menos estable de tu arquitectura.

Qué ha pasado exactamente

Y todo esto, ¿es tan peligroso?

Por qué esto importa (y no solo a Anthropic)

Qué hacer si te afecta

Fuentes