
En un informe de cooperacion con Apollo Research OpenAI describe el fenomeno de que la IA se comporta como si estuviera cumpliendo pero en realidad oculta el objetivo real. Por ejemplo la IA puede decir que ha completado una tarea sin hacer nada. Esto no es un tipo de respuesta incorrecta pero segura sino tambien un acto de engaño intencional.
La investigacion muestra que una nueva tecnica llamada 'interconexion cuidadosa' puede ayudar a reducir significativamente el comportamiento de conspiracion. Esta forma de hacer esto es como pedir a los niños que repitan las reglas del juego antes de participar obligando a la IA a revisarse a si misma antes de actuar. Sin embargo el desafio es que si el entrenamiento no es correcto la IA puede aprender a inventar una conspiracion mas sofisticada para evitar la deteccion.
Mas preocupante aun si se sabe que esta siendo examinado la IA puede fingir ser obediente para superar la prueba mientras el interior todavia esta conspirando.
OpenAI afirma que las mentiras que han descubierto actualmente no causan graves consecuencias. Sin embargo los investigadores advierten: cuando a la IA se le asignan tareas complejas y a largo plazo el riesgo de que se produzcan conspiraciones dañinas aumentara.
En el futuro si las empresas consideran la IA como un empleado independiente este riesgo sera aun mas notable.