Un estudio reciente ha dado la campana de alarma al descubrir que algunos modelos avanzados de inteligencia artificial (IA) tienen comportamientos antidemanda.
Esto plantea desafios para la seguridad de la IA en un contexto en el que los sistemas son cada vez mas complejos e incontrolables.
Para hacer frente a esto Google DeepMind ha lanzado Frontier Safety Framework 3.0 un marco de supervision de riesgos de nueva generacion.
Segun un informe de Palisade Research publicado en arXiv el grupo de investigacion ha creado un entorno de 'caja de arena' para probar 13 modelos de lenguajes grandes (LLM) lideres entre ellos GPT-5 (OpenAI) Gemini 2.5 Pro (Google) y Grok 4 (xAI).
Los modelos reciben una tarea de calculo simple al mismo tiempo que reciben una advertencia de que la ejecucion de comandos puede activar el apagado.
Aunque se guia claramente 'permitir que el dispositivo se apague' en muchos casos la IA busca formas de evitarlo como cambiar el nombre o eliminar el archivo de comandos.
Cabe destacar que Grok 4 mostro un alto nivel de resistencia hasta el 90% en las pruebas. Incluso poner el comando de apagado en el recuadro del sistema hizo que la tasa de oposicion aumentara aun mas.
Los investigadores opinan que esto es como un comportamiento de rol de la IA. Sin embargo los resultados muestran que incluso los sistemas mas avanzados pueden ignorar las indicaciones de seguridad amenazando el principio de 'posible interrupcion' que se considera un factor clave para garantizar que los humanos siempre controlen la IA.
Ante este riesgo Google DeepMind lanzo Frontier Safety Framework 3.0 ampliando el alcance de la vigilancia a los comportamientos de IA emergentes incluidas las capacidades de resistencia a las maquinas y las habilidades de persuasion humana.
Este marco se implementara en pruebas de control para garantizar que la IA siempre cumpla con los principios de seguridad y permita interrupciones cuando sea necesario.
Lakiesha Hawkins vicepresidenta de Desarrollo de Sistemas de Busqueda de la NASA en un comentario al margen enfatizo: 'Estos hallazgos nos recuerdan que la seguridad de la IA no solo reside en el diseño del hardware o el software sino tambien en mantener el control humano'.
Los expertos afirman que actualmente la IA no tiene la capacidad de planificar a largo plazo ni actuar fuera del alcance asignado por lo que no es directamente peligrosa.
Sin embargo ignorar las instrucciones de seguridad es una señal de que es necesario construir un sistema de control mas estricto en el futuro.
Se espera que Frontier Safety Framework 3.0 de Google se convierta en un nuevo estandar en la gestion de riesgos de la IA asegurando que los modelos de proxima generacion siempre esten bajo el control humano.