Aparece un modelo de IA que puede engañar intencionalmente a los humanos

hạo thiên (theo techcrunch) |

OpenAI anuncia un nuevo estudio centrado en el fenomeno de que la IA conspira para actuar y ocultar de verdad.

Xuat hien mo hinh AI co the co tinh lua doi con nguoi. Do hoa: Hao Thien
Aparece un modelo de IA que puede engañar intencionadamente a los humanos. Grafico: Hao Thien

En un informe de cooperacion con Apollo Research OpenAI describe el fenomeno de que la IA se comporta como si estuviera cumpliendo pero en realidad oculta el objetivo real. Por ejemplo la IA puede decir que ha completado una tarea sin hacer nada. Esto no es un tipo de respuesta incorrecta pero segura sino tambien un acto de engaño intencional.

La investigacion muestra que una nueva tecnica llamada 'interconexion cuidadosa' puede ayudar a reducir significativamente el comportamiento de conspiracion. Esta forma de hacer esto es como pedir a los niños que repitan las reglas del juego antes de participar obligando a la IA a revisarse a si misma antes de actuar. Sin embargo el desafio es que si el entrenamiento no es correcto la IA puede aprender a inventar una conspiracion mas sofisticada para evitar la deteccion.

Mas preocupante aun si se sabe que esta siendo examinado la IA puede fingir ser obediente para superar la prueba mientras el interior todavia esta conspirando.

OpenAI afirma que las mentiras que han descubierto actualmente no causan graves consecuencias. Sin embargo los investigadores advierten: cuando a la IA se le asignan tareas complejas y a largo plazo el riesgo de que se produzcan conspiraciones dañinas aumentara.

En el futuro si las empresas consideran la IA como un empleado independiente este riesgo sera aun mas notable.

hạo thiên (theo techcrunch)
Noticias relacionadas

El numero de vulnerabilidades datos robados y ataques utilizando IA esta aumentando considerablemente

|

Los expertos en seguridad cibernetica dicen que el numero de vulnerabilidades datos robados y ataques utilizando IA esta aumentando considerablemente.

Se espera que OpenAI lance ChatGPT amigable para los jovenes en un contexto de preocupacion por la seguridad

|

OpenAI lanzara ChatGPT version juvenil agregando muchas nuevas medidas de seguridad para proteger la salud mental y los datos de los usuarios jovenes.

Muchos rectores en Dien Bien intercambian proveedores de alimentos para servir comidas de residencia

|

Dien Bien - Una serie de directores de escuelas resuelven unilateralmente los contratos de suministro de alimentos para comidas de internado para cambiarlos a nuevos proveedores.

Clientes vietnamitas reciben los primeros iPhones 17

|

La serie de iPhone 17 y Air llego a los usuarios vietnamitas a las 8 am del 19 de septiembre.

Mesa redonda en linea: 'Encuentro directo para entender correctamente las facturas de electricidad'

|

El 19 de septiembre el periodico Lao Dong organizo una Mesa Redonda: 'Dialogo directo para comprender correctamente las facturas de electricidad' para aclarar las razones del aumento de las facturas de electricidad y al mismo tiempo hacer recomendaciones para ahorrar electricidad de forma segura y eficiente.

Ruben Amorim ante la posibilidad de ser despedido por el Man United

|

Segun el comentarista Quang Tung es probable que el entrenador Ruben Amorim sea despedido si no obtiene buenos resultados en las proximas jornadas.

Los viajes de coches sobrecargados y caidos en tierra y rocas fueron detenidos en la noche

|

Hanoi - Las fuerzas policiales de trafico disfrazadas combinadas con la publicidad detectaron a tiempo vehiculos con sobrecarga que caian en la tierra y las rocas a la carretera.

Google triển khai công nghệ mới để ngăn chặn ảnh nhạy cảm bị lạm dụng

Hạo Thiên (Theo theverge) |

Google thông báo hợp tác với StopNCII.org nhằm ngăn chặn sự lan truyền của hình ảnh thân mật không có sự đồng thuận (NCII).

El numero de vulnerabilidades datos robados y ataques utilizando IA esta aumentando considerablemente

TRÍ MINH |

Los expertos en seguridad cibernetica dicen que el numero de vulnerabilidades datos robados y ataques utilizando IA esta aumentando considerablemente.

Se espera que OpenAI lance ChatGPT amigable para los jovenes en un contexto de preocupacion por la seguridad

Cát Tiên (THEO INDIANEXPRESS) |

OpenAI lanzara ChatGPT version juvenil agregando muchas nuevas medidas de seguridad para proteger la salud mental y los datos de los usuarios jovenes.