Un investigador especializado en inteligencia artificial y ciberseguridad asegura haber logrado vulnerar las protecciones del modelo Claude Fable 5 de Anthropic en menos de 48 horas desde su puesta en marcha.

El experto, que opera bajo el seudónimo de «Pliny the Liberator» y es conocido en la comunidad de IA, anunció el miércoles que había «liberado» Fable 5, presentado el martes como una versión restringida del modelo más potente Mythos, que Anthropic consideró demasiado peligroso para su distribución general.
Según explicó, empleó diversas técnicas para sortear las barreras de seguridad instaladas por Anthropic, diseñadas para impedir que los usuarios soliciten información potencialmente dañina, como fórmulas para fabricar drogas o instrucciones de hacking. Entre sus métodos figura el uso de una versión previamente vulnerada de Opus 4.8.
«A pesar de esta capa de ‘seguridad’ autoritaria y excesivamente sensible sobre Mythos, mis pequeños liberadores han estado trabajando duro […] encontrando hábilmente los agujeros en la valla que la policía del pensamiento pasó por alto», declaró Pliny.
La noticia ha generado preocupación adicional en la comunidad cripto, donde algunos usuarios ya habían expresado inquietud durante los lanzamientos de Claude Fable 5 y Mythos sobre su posible uso para atacar protocolos y software de criptomonedas. Una versión vulnerada del modelo haría esta amenaza aún más cercana.
Técnicas empleadas para burlar las restricciones
Pliny se dio a conocer alrededor de 2024 por desarrollar y compartir abiertamente métodos para vulnerar modelos como ChatGPT, Claude o Grok, publicando frecuentemente «alertas de jailbreak» poco después del lanzamiento de nuevos modelos de IA.
Para sortear las defensas de Anthropic, el investigador empleó técnicas como Unicode y homóglifos, encuadre de contexto largo, encuadre narrativo y de ficción, descomposición-recomposición de estilo académico, y el uso de una versión vulnerada de Claude Opus 4.8.
«Quizá lo más efectivo es la descomposición más recomposición en el backend», señaló. Este método consiste en dividir las peticiones en fragmentos pequeños e inocentes, solicitando datos aparentemente inofensivos uno por uno. Cada pregunta por separado supera los filtros de seguridad de la IA, pero al recomponer las respuestas, se obtiene información más útil o peligrosa.
Críticas al modelo Fable 5
El lanzamiento de Fable 5 ha generado rechazo por parte de críticos debido a sus fuertes restricciones. Cuando un usuario plantea temas sensibles como bioarmas o ciberseguridad, el modelo está diseñado para devolver una notificación y redirigir la conversación a un modelo anterior menos capaz.
«Esta es una de las primeras veces que una empresa de IA ha implementado una barrera de seguridad y ha habido un desprecio uniforme. Ha generado mucha ira justificada», afirmó Sayash Kapoor, investigador de IA en la Universidad de Princeton, según recoge el Wall Street Journal.
Pliny coincidió: «El consenso parece ser que este ha sido uno de los lanzamientos de modelos más decepcionantes de todos los tiempos, impidiendo efectivamente que investigadores legítimos contribuyan con sus talentos a nuestro avance colectivo».
Anthropic no detectó vulnerabilidades universales en sus pruebas
Durante el lanzamiento de Fable 5, Anthropic comunicó que había ejecutado un programa externo de recompensas por detección de errores para buscar formas de vulnerar el modelo de IA.
«Además de pruebas internas, ejecutamos un programa externo de recompensas que no produjo jailbreaks universales en más de 1.000 horas de testeo», aseguró la compañía.
Cointelegraph intentó contactar con Anthropic para obtener comentarios, pero no recibió respuesta inmediata en el momento de esta publicación.
Fuente: Cointelegraph · Esta información ha sido elaborada por la redacción de Criptonews con apoyo de herramientas editoriales automatizadas.