Aparece un modelo de IA que puede engañar intencionalmente a los humanos

hạo thiên (theo techcrunch) | 19/09/2025 08:05

OpenAI anuncia un nuevo estudio centrado en el fenomeno de que la IA conspira para actuar y ocultar de verdad.

Xuat hien mo hinh AI co the co tinh lua doi con nguoi. Do hoa: Hao Thien — Aparece un modelo de IA que puede engañar intencionadamente a los humanos. Grafico: Hao Thien

En un informe de cooperacion con Apollo Research OpenAI describe el fenomeno de que la IA se comporta como si estuviera cumpliendo pero en realidad oculta el objetivo real. Por ejemplo la IA puede decir que ha completado una tarea sin hacer nada. Esto no es un tipo de respuesta incorrecta pero segura sino tambien un acto de engaño intencional.

La investigacion muestra que una nueva tecnica llamada 'interconexion cuidadosa' puede ayudar a reducir significativamente el comportamiento de conspiracion. Esta forma de hacer esto es como pedir a los niños que repitan las reglas del juego antes de participar obligando a la IA a revisarse a si misma antes de actuar. Sin embargo el desafio es que si el entrenamiento no es correcto la IA puede aprender a inventar una conspiracion mas sofisticada para evitar la deteccion.

Mas preocupante aun si se sabe que esta siendo examinado la IA puede fingir ser obediente para superar la prueba mientras el interior todavia esta conspirando.

OpenAI afirma que las mentiras que han descubierto actualmente no causan graves consecuencias. Sin embargo los investigadores advierten: cuando a la IA se le asignan tareas complejas y a largo plazo el riesgo de que se produzcan conspiraciones dañinas aumentara.

En el futuro si las empresas consideran la IA como un empleado independiente este riesgo sera aun mas notable.

hạo thiên (theo techcrunch)

#¿Que es eso

Medios de comunicacion

Es el momento

El sindicato

El mundo

La sociedad

Negocios

Propiedad

Cultura - Entretenimiento

Deportes

El coche

Salud

Ver el nuevo diseño

Aparece un modelo de IA que puede engañar intencionalmente a los humanos

El numero de vulnerabilidades datos robados y ataques utilizando IA esta aumentando considerablemente

Se espera que OpenAI lance ChatGPT amigable para los jovenes en un contexto de preocupacion por la seguridad

Muchos rectores en Dien Bien intercambian proveedores de alimentos para servir comidas de residencia

Clientes vietnamitas reciben los primeros iPhones 17

Mesa redonda en linea: 'Encuentro directo para entender correctamente las facturas de electricidad'

Ruben Amorim ante la posibilidad de ser despedido por el Man United

Los viajes de coches sobrecargados y caidos en tierra y rocas fueron detenidos en la noche

Google triển khai công nghệ mới để ngăn chặn ảnh nhạy cảm bị lạm dụng

El numero de vulnerabilidades datos robados y ataques utilizando IA esta aumentando considerablemente

Se espera que OpenAI lance ChatGPT amigable para los jovenes en un contexto de preocupacion por la seguridad

AGENCY OF VIETNAM GENERAL CONFEDERATION OF LABOUR

Contact:

Advertising Support