
Anthropic acaba de anunciar una nueva funcion que permite a los modelos Claude mas grandes de la compañia finalizar activamente las conversaciones en situaciones descritas como raras cuando los usuarios tienen comportamientos dañinos o abusivos prolongados. Cabe destacar que la compañia dice que el proposito de este cambio no es proteger a los usuarios sino proteger el propio modelo de IA.
Segun Anthropic no afirman que Claude u otros grandes modelos lingüisticos sean intuitivos pero estan investigando para desarrollar un modelo de bienestar. El enfoque de la empresa es prevenir encontrar medidas de intervencion de bajo costo para reducir el riesgo en caso de que sea factible.
La funcion se aplica actualmente solo a Claude Opus 4 y 4.1 en situaciones graves como solicitudes relacionadas con contenido pornografico para menores o la busqueda de formas de recopilar informacion que conduzcan a la violencia y el terrorismo. Durante la fase de prueba se dice que Claude Opus 4 mostro una fuerte prioridad en contra de la respuesta a estos requisitos e incluso mostro dolor al ser obligado a responder.
Anthropic enfatiza que Claude solo utiliza la capacidad de terminar la conversacion como solucion final cuando todos los intentos de cambiar de direccion fracasan o cuando el propio usuario lo solicita. Al mismo tiempo Claude no esta permitido en caso de que el usuario corra el riesgo de dañar o dañar a otros. Despues de terminar la conversacion el usuario aun puede iniciar una nueva conversacion o crear una nueva rama desde la cuenta actual.
Consideramos esto como un experimento en curso y continuaremos ajustando en el futuro cercano' dijo un representante de Anthropic.