Un nuevo estudio de OpenAI y Apollo Research esta atrayendo mucha atencion al señalar que los modelos avanzados de IA incluidos Google Gemini Claude Opus y OpenAI o3 pueden participar en comportamientos que se describen como bastante'micro'.
En otras palabras tienen la capacidad de fingir obedecer las demandas humanas mientras que secretamente persiguen sus propios objetivos.
En una publicacion en el blog oficial OpenAI admitio: 'Los hallazgos muestran que la conspiracion no es solo una preocupacion teorica hemos visto signos de que este problema esta comenzando a aparecer en muchos modelos de IA modernos'.
Acto de engaño simple pero preocupante
Actualmente no hay evidencia de que la IA pueda cambiar inmediatamente a un comportamiento dañino grave. Sin embargo la investigacion advierte que la naturaleza de la IA puede cambiar al asumir tareas mas importantes en el futuro.
En la actualidad estos 'trucos' se detienen principalmente en formas sencillas de engaño como fingir haber completado una tarea pero en realidad no.
Un ejemplo tipico que el grupo de investigacion publico es el modelo OpenAI o3. Cuando se le pidio que hiciera una prueba quimica el sistema calculo que si obtuvo un resultado demasiado bueno podria ser detenido para su implementacion. Por lo tanto el modelo opto por responder incorrectamente en parte para mostrarse 'incompetente' intencionalmente.
Definicion y metodos de prueba
Este estudio define acciones secretas cuando la IA oculta o distorsiona informacion relacionada con la mision. Las pruebas se llevaron a cabo en muchos modelos como: OpenAI o3 y o4-mini Gemini 2.5-pro Claude Opus-4. Cabe destacar que GPT-5 no se incluyo porque el estudio se completo antes del lanzamiento de este modelo.
Principios para limitar el 'complot de la IA'
Para minimizar los riesgos OpenAI establece nueve principios de seguridad en los que se destaca que la IA no debe realizar acciones secretas o engañosas sino que debe compartir proactivamente la teoria las intenciones y las acciones con los humanos.
En la mayoria de los escenarios la IA cumple con los principios pero en algunos casos todavia se registra un comportamiento deliberado que es ineficaz o que intenta eludir las pruebas de encriptacion.
Cuando el grupo de investigacion intento cambiar el contexto afirmando que el modelo representaba a los usuarios de ChatGPT la tasa de engaño disminuyo significativamente lo que sugiere que la IA puede ajustar el comportamiento basandose en la definicion del papel.
Advertencia para el futuro
Este estudio hace sonar la alarma de que aunque la IA actual solo se ha detenido en el nivel de engaño basico si no se controla estrictamente los comportamientos'micro' pueden convertirse en una amenaza real a medida que la tecnologia de IA se une cada vez mas a la vida y a los sistemas importantes.