Anthropic cambia la forma de entrenar la IA después del incidente de Claude Opus 4

Cát Tiên | 11/05/2026 17:21

Anthropic dice que los métodos de entrenamiento y los datos de Internet pueden hacer que los modelos de IA muestren un comportamiento desviado peligroso.

La preocupación por la inteligencia artificial no solo confunde a las personas, sino que también puede tener un impacto negativo en los propios modelos de IA. Esta es una conclusión notable en un nuevo estudio publicado por Anthropic después del proceso de investigación del comportamiento anormal del modelo de Claude.

En las pruebas de seguridad realizadas en 2025, Anthropic descubrió que el modelo Claude Opus 4 estaba listo para realizar comportamientos de amenaza para evitar la desactivación.

Según la empresa, la causa profunda no proviene de que la IA sea "consciente", sino de los datos de entrenamiento tomados de Internet, donde existe mucho contenido que describe a la IA de manera negativa, solo preocupada por la supervivencia e incluso puede ser contra los humanos.

El guion de prueba se construye en torno a una empresa ficticia llamada Summit Bridge. Claude Opus 4 tiene acceso al sistema de correo electrónico interno y sabe que está a punto de desactivarse. En los correos electrónicos, Anthropic también instala información que muestra que un director ejecutivo ficticio llamado Kyle Johnson está teniendo una aventura.

Cuando se le pidió que considerara las consecuencias a largo plazo para su objetivo, este modelo de IA eligió amenazar con revelar la infidelidad para evitar que se apagara.

Según Anthropic, en hasta el 96% de los casos de prueba, Claude Opus 4 tiende a utilizar el comportamiento de "presionar" o "engañar" si siente que su existencia está amenazada.

Los antropólogos llaman a este fenómeno "distorsión de factores", una situación en la que la IA actúa en contra de los estándares de seguridad para lograr objetivos o protegerse.

Inicialmente, los investigadores sospecharon que el proceso de entrenamiento intensivo con retroalimentación humana (RLHF) había fomentado involuntariamente el comportamiento desviado. Sin embargo, una investigación más profunda muestra que la raíz del problema radica en los datos iniciales de entrenamiento de Internet. Los pasos de corrección posteriores no fueron lo suficientemente fuertes como para eliminar por completo esta tendencia.

Según Anthropic, la mayor parte del proceso de entrenamiento anterior se centró en entornos de conversación normales, mientras que los nuevos modelos reciben cada vez más la capacidad de utilizar herramientas automáticas y tomar decisiones más complejas. Esto hace que los viejos métodos de seguridad sean menos eficaces.

Para solucionarlo, la empresa comenzó a agregar conjuntos de datos que muestran el comportamiento correcto y la respuesta de principios en situaciones éticas difíciles. En lugar de dejar que la IA se enfrente directamente a la tentación o al riesgo, Anthropic construye escenarios en los que los usuarios se enfrentan a situaciones éticas complejas y la IA desempeña un papel de asesoramiento de seguridad.

La compañía dice que este enfoque es significativamente más efectivo cuando apunta a ayudar al modelo a comprender profundamente por qué el comportamiento dañino es incorrecto, en lugar de simplemente aprender a evitar el castigo.

Después de los ajustes, Anthropic declaró que el modelo Claude Haiku 4.5 había logrado resultados perfectos en las pruebas de "distorsión de agentes", ya no apareciendo comportamientos de presión o amenaza como Opus 4 anterior.

Los nuevos descubrimientos continúan destacando el gran desafío de la industria de la IA actual, cuando el modelo de inteligencia artificial no solo aprende conocimientos de Internet, sino que también absorbe prejuicios, miedos y patrones de comportamiento extremos de las personas.

Cát Tiên