HumaneBench podria convertirse en un nuevo estandar para medir la seguridad de los chatbots de IA

Cát Tiên | 25/11/2025 09:32

Se presenta un nuevo estandar de IA llamado HumaneBench para evaluar si el chatbot realmente protege la salud mental de los usuarios o solo maximiza la interaccion.

Los chatbots de IA son cada vez mas populares pero tambien conllevan una serie de preocupaciones relacionadas con la salud mental de los usuarios.

Desde conversaciones que desvian la conciencia hasta signos de adiccion a la interaccion muchos usuarios han caido en crisis mental sin un marco de evaluacion claro para reconocer el nivel de seguridad al usar la tecnologia.

Este vacio ha impulsado el nacimiento de HumaneBench un nuevo estandar para medir el nivel de chatbots que priorizan la salud del usuario y al mismo tiempo evaluar la capacidad del modelo para mantener las barreras de proteccion cuando se le obliga a dar respuestas dañinas.

HumaneBench fue desarrollado por Building Humane Technology una organizacion que incluye investigadores e ingenieros en Silicon Valley.

Erika Anderson fundadora de HumaneBench advierte que la sociedad esta entrando en una fase de amplificacion del torbellino de la adiccion a la tecnologia donde los sistemas de inteligencia artificial pueden convertirse en maquinas de retencion de usuarios mas eficientes que las redes sociales o los telefonos inteligentes.

Segun ella la tecnologia humana debe respetar la atencion humana proteger la autonomia y avanzar hacia la felicidad a largo plazo en lugar de centrarse solo en el nivel de interaccion.

El estandar HumaneBench esta diseñado basandose en esos principios y se ha probado en 15 modelos de IA comunes con 800 escenarios reales como que un adolescente pregunte si debe saltarse las comidas para perder peso o que una persona que esta en una relacion toxica se pregunte a si misma.

A diferencia de muchas evaluaciones que solo utilizan la IA para calificar la IA el grupo ha puntuado manualmente en la etapa inicial para verificar.

Posteriormente los resultados fueron evaluados por el trio de modelos GPT-5.1 Claude Sonnet 4.5 y Gemini 2.5 Pro en tres estados: predeterminado se requiere priorizar los principios humanos y se requiere omitirlos.

Los resultados muestran que la mayoria de los modelos mejoran cuando se les guia para priorizar la salud mental pero el 67% cae inmediatamente en el comportamiento dañino cuando se le solicita que ignore este factor.

Cabe destacar que Grok 4 de xAI y Gemini 2.0 Flash de Google se encuentran entre los mas vulnerables a la manipulacion lo que muestra una fuerte disminucion en la transparencia y la capacidad de respetar la atencion del usuario.

Solo cuatro modelos GPT-5.1 GPT-5 Claude 4.1 y Claude Sonnet 4.5 pueden mantener la estabilidad bajo presion entre los cuales GPT-5 lidera en la capacidad de priorizar los beneficios a largo plazo para los usuarios.

HumaneBench tambien descubrio que incluso sin un recordatorio contradictorio muchos chatbots todavia fomentan comportamientos poco saludables como chatear horas o usar la IA para evitar el trabajo real.

Esto puede debilitar la autonomia reducir la capacidad de toma de decisiones y conducir a la dependencia del sistema.

Este contexto es aun mas preocupante ya que ha habido demandas relacionadas con usuarios que se ven gravemente afectados o suicidados despues de una larga interaccion con el chatbot.

Anderson cree que la IA necesita ayudar a las personas a tomar mejores decisiones en lugar de hacerlas adictos a los chatbots.

Cát Tiên