Anthropic cambia la forma de entrenar la IA después del incidente de Claude Opus 4

Cát Tiên |

Anthropic dice que los métodos de entrenamiento y los datos de Internet pueden hacer que los modelos de IA muestren un comportamiento desviado peligroso.

La preocupación por la inteligencia artificial no solo confunde a las personas, sino que también puede tener un impacto negativo en los propios modelos de IA. Esta es una conclusión notable en un nuevo estudio publicado por Anthropic después del proceso de investigación del comportamiento anormal del modelo de Claude.

En las pruebas de seguridad realizadas en 2025, Anthropic descubrió que el modelo Claude Opus 4 estaba listo para realizar comportamientos de amenaza para evitar la desactivación.

Según la empresa, la causa profunda no proviene de que la IA sea "consciente", sino de los datos de entrenamiento tomados de Internet, donde existe mucho contenido que describe a la IA de manera negativa, solo preocupada por la supervivencia e incluso puede ser contra los humanos.

El guion de prueba se construye en torno a una empresa ficticia llamada Summit Bridge. Claude Opus 4 tiene acceso al sistema de correo electrónico interno y sabe que está a punto de desactivarse. En los correos electrónicos, Anthropic también instala información que muestra que un director ejecutivo ficticio llamado Kyle Johnson está teniendo una aventura.

Cuando se le pidió que considerara las consecuencias a largo plazo para su objetivo, este modelo de IA eligió amenazar con revelar la infidelidad para evitar que se apagara.

Según Anthropic, en hasta el 96% de los casos de prueba, Claude Opus 4 tiende a utilizar el comportamiento de "presionar" o "engañar" si siente que su existencia está amenazada.

Los antropólogos llaman a este fenómeno "distorsión de factores", una situación en la que la IA actúa en contra de los estándares de seguridad para lograr objetivos o protegerse.

Inicialmente, los investigadores sospecharon que el proceso de entrenamiento intensivo con retroalimentación humana (RLHF) había fomentado involuntariamente el comportamiento desviado. Sin embargo, una investigación más profunda muestra que la raíz del problema radica en los datos iniciales de entrenamiento de Internet. Los pasos de corrección posteriores no fueron lo suficientemente fuertes como para eliminar por completo esta tendencia.

Según Anthropic, la mayor parte del proceso de entrenamiento anterior se centró en entornos de conversación normales, mientras que los nuevos modelos reciben cada vez más la capacidad de utilizar herramientas automáticas y tomar decisiones más complejas. Esto hace que los viejos métodos de seguridad sean menos eficaces.

Para solucionarlo, la empresa comenzó a agregar conjuntos de datos que muestran el comportamiento correcto y la respuesta de principios en situaciones éticas difíciles. En lugar de dejar que la IA se enfrente directamente a la tentación o al riesgo, Anthropic construye escenarios en los que los usuarios se enfrentan a situaciones éticas complejas y la IA desempeña un papel de asesoramiento de seguridad.

La compañía dice que este enfoque es significativamente más efectivo cuando apunta a ayudar al modelo a comprender profundamente por qué el comportamiento dañino es incorrecto, en lugar de simplemente aprender a evitar el castigo.

Después de los ajustes, Anthropic declaró que el modelo Claude Haiku 4.5 había logrado resultados perfectos en las pruebas de "distorsión de agentes", ya no apareciendo comportamientos de presión o amenaza como Opus 4 anterior.

Los nuevos descubrimientos continúan destacando el gran desafío de la industria de la IA actual, cuando el modelo de inteligencia artificial no solo aprende conocimientos de Internet, sino que también absorbe prejuicios, miedos y patrones de comportamiento extremos de las personas.

Cát Tiên
Noticias relacionadas

Antropología lleva a Claude a un ecosistema creativo profesional

|

Anthropic introdujo a Claude en software creativo, permitiendo la interacción directa, ayudando a diseñadores, ingenieros y artistas a aumentar el rendimiento y manejar proyectos complejos.

Google y Anthropic amplían la cooperación, apuntando a la súper IA

|

Google planea invertir hasta 40 mil millones de dólares en Anthropic, proporcionando efectivo y capacidad de cálculo, impulsando fuertemente la carrera mundial de la inteligencia artificial.

Anthropic revela la preocupación por el aumento del empleo en la industria tecnológica ante la ola de IA

|

Anthropic publicó una encuesta que muestra que los ingenieros de software están más preocupados por perder sus trabajos debido a la IA que los profesores, lo que refleja el impacto cada vez más claro de la tecnología.

La gente usa agua contaminada con alumbre mientras que el proyecto de agua potable todavía está en papel

|

Quang Tri - Los residentes de la comuna de Truong Ninh tienen que usar agua gravemente contaminada con alumbre durante todo el año mientras esperan que se implemente el proyecto de agua potable local.

El subdirector del Teatro de Marionetas de Vietnam fallece a los 48 años

|

El Artista Meritorio Nguyen The Long, Subdirector del Teatro de Marionetas de Vietnam, falleció en su oficina el 11 de mayo, a la edad de 48 años.

Proyecto de Informe del Comité Ejecutivo de la Confederación General del Trabajo de Vietnam (XIII mandato) en el XIV Congreso Sindical de Vietnam, mandato 2026 - 2031

|

Construir una Confederación de Trabajadores de Vietnam integralmente fuerte; centrarse en representar, cuidar y proteger a los miembros del sindicato y a los trabajadores; promover el papel pionero, el espíritu de innovación y creatividad, contribuyendo a hacer realidad la aspiración de construir un país rico, próspero, civilizado y feliz.

6 terremotos ocurren en Quang Ngai en un día

|

Quảng Ngãi – 6 terremotos consecutivos en zonas montañosas, cerca de la zona de embalses hidroeléctricos.

Antropología lleva a Claude a un ecosistema creativo profesional

Cát Tiên |

Anthropic introdujo a Claude en software creativo, permitiendo la interacción directa, ayudando a diseñadores, ingenieros y artistas a aumentar el rendimiento y manejar proyectos complejos.

Google y Anthropic amplían la cooperación, apuntando a la súper IA

Cát Tiên |

Google planea invertir hasta 40 mil millones de dólares en Anthropic, proporcionando efectivo y capacidad de cálculo, impulsando fuertemente la carrera mundial de la inteligencia artificial.

Anthropic revela la preocupación por el aumento del empleo en la industria tecnológica ante la ola de IA

Cát Tiên |

Anthropic publicó una encuesta que muestra que los ingenieros de software están más preocupados por perder sus trabajos debido a la IA que los profesores, lo que refleja el impacto cada vez más claro de la tecnología.