Anthropic experimento de la funcion que permite a Claude terminar una conversacion toxica por si mismo

HẠO THIÊN (tHEO techcrunch) | 17/08/2025 09:41

Anthropic acaba de presentar la capacidad de permitir a Claude detener activamente las conversaciones cuando se encuentra con contenido toxico.

Anthropic vua gioi thieu kha nang cho phep Claude chu dong cham dut cac cuoc tro chuyen khi gap noi dung doc hai hoac lam dung nghiem trong. Do hoa: Hao Thien — Anthropic acaba de presentar la capacidad de permitir que Claude termine activamente las conversaciones cuando se encuentre con contenido toxico o abusivo grave. Grafico: Hao Thien

Anthropic acaba de anunciar una nueva funcion que permite a los modelos Claude mas grandes de la compañia finalizar activamente las conversaciones en situaciones descritas como raras cuando los usuarios tienen comportamientos dañinos o abusivos prolongados. Cabe destacar que la compañia dice que el proposito de este cambio no es proteger a los usuarios sino proteger el propio modelo de IA.

Segun Anthropic no afirman que Claude u otros grandes modelos lingüisticos sean intuitivos pero estan investigando para desarrollar un modelo de bienestar. El enfoque de la empresa es prevenir encontrar medidas de intervencion de bajo costo para reducir el riesgo en caso de que sea factible.

La funcion se aplica actualmente solo a Claude Opus 4 y 4.1 en situaciones graves como solicitudes relacionadas con contenido pornografico para menores o la busqueda de formas de recopilar informacion que conduzcan a la violencia y el terrorismo. Durante la fase de prueba se dice que Claude Opus 4 mostro una fuerte prioridad en contra de la respuesta a estos requisitos e incluso mostro dolor al ser obligado a responder.

Anthropic enfatiza que Claude solo utiliza la capacidad de terminar la conversacion como solucion final cuando todos los intentos de cambiar de direccion fracasan o cuando el propio usuario lo solicita. Al mismo tiempo Claude no esta permitido en caso de que el usuario corra el riesgo de dañar o dañar a otros. Despues de terminar la conversacion el usuario aun puede iniciar una nueva conversacion o crear una nueva rama desde la cuenta actual.

Consideramos esto como un experimento en curso y continuaremos ajustando en el futuro cercano' dijo un representante de Anthropic.

HẠO THIÊN (tHEO techcrunch)