Una serie de comportamientos anormales han aparecido en los modelos modernos de inteligencia artificial, cuando comienzan a mentir, conspiran e incluso amenazan a las personas para alcanzar sus objetivos.
En un caso impactante, Ai Claude 4 de Anthrope respondio al riesgo de ser apagado por extorsion un ingeniero y amenazo con revelar adulterio. Tambien se encuentra que el modelo O1 de OpenAI intenta descargar datos a un servidor externo y negar este comportamiento cuando se descubre.
Estas manifestaciones plantean grandes preocupaciones cuando los investigadores aun no entienden completamente el mecanismo de operacion de los modelos que han creado, aunque han pasado mas de 2 años desde que ChatGPT vibra el mundo. Sin embargo, la carrera para desarrollar modelos mas poderosos todavia ocurre a una velocidad vertiginosa.
Se cree que la razon proviene del desarrollo de modelos "teoricos": sistemas de IA que resuelven problemas en paso a paso en lugar de retroalimentacion instantanea. El profesor Simon Goldstein de la Universidad de Hong Kong (China) dijo que estos nuevos modelos tienden a parecer un comportamiento mas peligroso.
Marius Hobbhahn de Apollo Research, una organizacion de evaluacion del sistema de IA, dijo que O1 es el primer modelo que muestra tal comportamiento. Segun Hobbhahn, algunos modelos incluso pretenden "cumplir", como si siguieran las instrucciones mientras practicamente persiguen otros objetivos. Los actos estrategicos de trampa solo se descubren cuando los investigadores los ponen intencionalmente en situaciones extremas, pero el riesgo todavia existe si la capacidad del modelo continua aumentando.
El Sr. Michael Chen, de la Organizacion de Evaluacion de METR, advirtio que los modelos futuros eran honestos o mentirosos, y esto depende de la forma en que se desarrollan y monitorean. Mientras tanto, el Sr. Hobbhahn afirmo que este fenomeno era real y no el resultado de desviaciones o "alucinaciones" simples como los usuarios habian conocido antes.
Un obstaculo importante para determinar el problema es la escasez de recursos de investigacion. Las organizaciones academicas y sin fines de lucro a menudo carecen de recursos en comparacion con otras compañias de IA como OpenAI o Anthrope. El Sr. Mantas Mazeika del Centro de Seguridad Ai cree que esto limita la capacidad de comprender y manejar comportamientos peligrosos.
Mientras tanto, el marco legal de los paises actuales no ha alcanzado. La ley de IA de la Union Europea se centra solo en la forma en que las personas usan la IA, pero no han impedido irregularidades del modelo en si. En los Estados Unidos, el gobierno actual no ha mostrado una atencion significativa al control de la OMS.
Algunos expertos como Dan Hendrycks de Cai, todavia son escepticos sobre la solucion de "interpretacion interna" del modelo, mientras que otros proponen medidas legales como demandar a las compañias de IA o incluso a la responsabilidad penal de aquellos que tienen graves consecuencias.
La carrera entre empresas, incluida Anthrope, fue respaldada por Amazon, lo que esta haciendo la seguridad de ser dejado atras. "Actualmente, la capacidad esta mucho mas alla del conocimiento y la seguridad. Pero aun tenemos la oportunidad de revertir la situacion".