
Anthropic PBC está ampliando el acceso a una versión de Mythos que no podrá utilizarse para tareas de ciberseguridad, meses después de advertir que este potente modelo de inteligencia artificial (IA) era capaz de detectar y explotar vulnerabilidades en software crítico.
El nuevo modelo, denominado Fable 5, comenzará a desplegarse este martes con mecanismos de seguridad que le impedirán responder a ciertos tipos de consultas, incluidas aquellas relacionadas con ciberseguridad y biología. En esos casos, Anthropic indicó que su chatbot Claude redirigirá las respuestas a otro modelo llamado Opus 4.8.
Anthropic también lanzará el mismo modelo, pero sin algunas de esas restricciones, bajo una nueva versión denominada Mythos 5. Estará disponible para los grupos autorizados a utilizar capacidades avanzadas de ciberseguridad a través de una iniciativa llamada Project Glasswing. La semana pasada, la empresa sumó otras 150 organizaciones al programa, elevando a unas 200 el número total de entidades con acceso a Mythos.
“El lanzamiento de un modelo con tal capacidad conlleva riesgos. Sin medidas de seguridad, las capacidades de Fable 5 en áreas como la ciberseguridad podrían utilizarse indebidamente para causar daños graves”, advierte la empresa en un comunicado.
Razón por la que la empresa lanzó el modelo con “salvaguardas” que implican que las consultas sobre ciertos temas recibirán, en su lugar, una respuesta “del siguiente modelo más capaz”, Claude Opus 4.8.
“Para lanzar el modelo de forma segura y rápida, hemos ajustado estas medidas de seguridad con un criterio conservador; a veces bloquearán solicitudes inofensivas, aunque se activan, en promedio, en menos del 5% de las sesiones”, advierte la compañía.
Según la empresa, Claude Fable 5 es su modelo más potente disponible para usuarios de pago y clientes empresariales, con “mejoras significativas en tareas de programación, análisis de datos, investigación y trabajo complejo de conocimiento”.
Este martes, Anthropic también lanzó una versión actualizada del modelo Mythos, Claude Mythos 5. Se trata del mismo modelo subyacente que Claude Fable 5, pero con las restricciones de seguridad flexibilizadas en ciertas áreas, según una publicación en su blog.
Hace una semana, Anthropic anunció que otros 150 socios, distribuidos en más de 15 países, obtendrán acceso a su potente modelo de inteligencia artificial Mythos.
La empresa señaló que la expansión del Proyecto Glasswing -que toma su nombre de la mariposa de alas transparentes que se camufla a plena vista- abarca sectores que no estuvieron representados en el lanzamiento inicial de abril, tales como la energía, el suministro de agua, la salud, las comunicaciones y el hardware.
No obstante, no reveló el nombre de las nuevas empresas que se han sumado a esta coalición ni los países a los que pertenecen.
En abril, la empresa dio acceso al modelo de defensa en ciberseguridad Proyecto Glasswing solo a 40 organizaciones, entre las que figuran Amazon, Apple, Google, Microsoft, Nvidia, CrowdStrike, JPMorgan Chase, Cisco, Broadcom, Palo Alto Networks y la Linux Foundation.
El lanzamiento de estos nuevos modelos se produce pocos días después de que Anthropic presentara de forma confidencial ante la Comisión de Bolsa y Valores (SEC) la documentación preliminar para una salida a bolsa. Su rival OpenAI, también se prepara para una importante salida a bolsa.
Por su parte, SpaceX, la empresa de Elon Musk que se fusionó con su empresa de IA, xAI, tiene previsto debutar en Wall Street este viernes.
El poder de Mythos
Mythos se ha convertido en una pieza central para la empresa con sede en San Francisco mientras avanza hacia una oferta pública inicial. La compañía tomó la inusual decisión de limitar el acceso al modelo a un grupo reducido de socios, al advertir que puede identificar y explotar vulnerabilidades “en todos los principales sistemas operativos y navegadores web” cuando recibe instrucciones para hacerlo. Al mismo tiempo, al igual que sus competidores, Anthropic busca desarrollar modelos cada vez más capaces para tareas de alto valor comercial, como programación, finanzas y ciberseguridad.
“Queríamos asegurarnos de que, para los casos de uso que no involucran ciberseguridad, pudiéramos priorizar el lanzamiento seguro de Fable lo antes posible”, dijo Dianne Penn, responsable de gestión de proyectos de investigación y laboratorios de Anthropic. “Por eso estamos lanzando primero esta parte de Fable mientras seguimos trabajando en los casos de uso generales relacionados con ciberseguridad”.
Según la empresa, Fable 5 mejora el desempeño en programación y otras tareas profesionales, especialmente en la resolución de problemas complejos que requieren períodos de trabajo más prolongados que los modelos anteriores.
En una prueba del nuevo software, la empresa de pagos Stripe completó en un solo día una extensa tarea de ingeniería de software que habría requerido dos meses de trabajo manual de un equipo, según Anthropic. La compañía también señaló que una hipótesis generada por Mythos sobre un nuevo mecanismo de una proteína de E. coli fue posteriormente confirmada en un artículo científico elaborado por un laboratorio que investigaba el mismo tema.
Para comprobar la solidez de las protecciones de Fable 5, Anthropic indicó que realizó internamente un programa de recompensas para encontrar formas de vulnerar el modelo o eludir sus mecanismos de seguridad. Tras más de 1,000 horas de pruebas, los equipos especializados no encontraron ningún método universal para sortear las restricciones.
Penn afirmó que Anthropic seguirá ampliando la cantidad de grupos con acceso a la versión de Mythos con capacidades de ciberseguridad a través de Project Glasswing y explorará “otras formas de permitir que socios de confianza accedan a funciones relacionadas con la ciberseguridad”.
Elaborado con información de EFE y Bloomberg
