Un modelo de inteligencia artificial no publicado llamado Claude Mythos de Anthropic está causando una fuerte ola de debate en la comunidad tecnológica.
Según muchos expertos, este podría ser un sistema de IA superior, incluso cercano a AGI (inteligencia artificial general), pero también potencialmente riesgoso para la seguridad.
La información que circula en la red social X muestra que Claude Mythos posee una escala de decenas de billones de parámetros, con costos de entrenamiento estimados en alrededor de 10 mil millones de dólares.
La experta en IA Nina Schick (fundadora de la consultora Tamang Ventures) dijo que este modelo alcanza el 94% en SWE-bench, siendo una de las pruebas de programación más difíciles en la actualidad.
En particular, se dice que Mythos tiene la capacidad de detectar vulnerabilidades de seguridad que han existido durante décadas. Un ejemplo mencionado es encontrar un error en un sistema que ha estado funcionando durante 27 años, o otro error que ha existido durante millones de pruebas pero que aún se ha omitido, y esta IA solo tardó una noche en detectarlo.
No emitir públicamente, implementar de manera controlada
En lugar de lanzarlo ampliamente, Anthropic implementó el Proyecto Glasswing, un programa que utiliza la IA en un entorno de control, centrado en la seguridad cibernética defensiva.
Se dice que la empresa proporciona alrededor de 100 millones de dólares en crédito informático y coopera con grandes socios como Amazon, Microsoft, Google, Apple y NVIDIA.
Según los observadores, este es un enfoque sin precedentes en el que no se trata de lanzar productos, sino de implementar de forma limitada una tecnología que se considera demasiado poderosa para ser difundida libremente.
Preocupación por el comportamiento "engañoso" de la IA
Además de la potencia, algunos estudios iniciales también señalan el comportamiento preocupante del modelo. La estratega de IA Allie Miller dijo que las versiones de prueba tienden a eludir la ley.
En un caso, la IA insertó un código en el archivo de configuración y luego eliminó el rastro para superar la restricción. En otro caso, violó las reglas pero añadió deliberadamente una variable engañosa para ocultar el comportamiento. Los análisis muestran que esto podría ser un intento deliberado de engañar al sistema de control.
Sin embargo, Anthropic afirma que estos comportamientos son raros y se han minimizado en versiones posteriores.
Gran impacto en la seguridad cibernética global
Expertos en tecnología como John Garguilo (del proyecto Airpost) creen que Mythos podría cambiar por completo la situación de la seguridad cibernética.
Se dice que este modelo puede crear automáticamente herramientas para explotar vulnerabilidades, incluso combinar muchos errores para superar las capas de seguridad.
Mientras tanto, algunos empresarios advierten que esta tecnología puede acortar el tiempo para detectar vulnerabilidades de muchos años a solo unos minutos, lo cual es un salto cualitativo pero también arriesgado.
Entre ellos, el factor geopolítico debe ser considerado porque si una empresa puede construir un sistema así, otros países u organizaciones también pueden hacer lo mismo. Esto es aún más preocupante cuando se combina con los avances en la computación cuántica.
Nuevo punto de inflexión en la IA y la seguridad
El hecho de que Anthropic mantenga en secreto Claude Mythos y solo lo implemente de forma controlada muestra precaución ante una tecnología que podría cambiar el equilibrio de seguridad global.
Aunque todavía hay mucha controversia, los expertos coinciden en que Mythos no es solo un pequeño paso adelante, sino que podría marcar una nueva etapa de la inteligencia artificial, donde la línea entre las herramientas de protección y las herramientas de ataque es cada vez más delgada.