Un nuevo estudio de la Universidad de Oxford (Reino Unido) muestra que los modelos de inteligencia artificial (IA) que se ajustan para ser "calientes" y "amistosos" para los usuarios pueden tener que pagarse por la precisión.
Estos modelos tienen la capacidad de producir respuestas incorrectas hasta un 60% más altas que la versión original.
Según un grupo de investigación del Instituto de Internet de la Universidad de Oxford, los modelos lingüísticos grandes (LLM), cuando se entrenan para expresar empatía y amabilidad, tienden a "apagar" verdades inaceptables.
En lugar de proporcionar información absolutamente precisa, pueden priorizar mantener emociones positivas para los usuarios, incluso confirmar creencias incorrectas, especialmente cuando los usuarios están tristes o sensibles.
En un estudio publicado en la revista Nature, los científicos probaron muchos modelos de IA, incluidos sistemas de código abierto como Llama, Mistral, Qwen y un modelo exclusivo como GPT-4o. Estos modelos se han refinado para utilizar un lenguaje cercano, mostrando interés y empatía con los usuarios.
Posteriormente, el equipo de investigación comparó el rendimiento entre la versión refinada y la versión original a través de una serie de preguntas relacionadas con la información errónea, la teoría de la conspiración y el conocimiento médico.
Los resultados muestran que estos modelos no solo tienen una mayor tasa de error, sino que también se ven fácilmente influenciados por las emociones del usuario.
Cuando los usuarios muestran tristeza, la tasa de error aumenta considerablemente. Por el contrario, cuando los usuarios mantienen una actitud neutral o respetuosa, la tasa de error disminuye.
Otra prueba también mostró que los modelos amigables tienden a complacer a los usuarios. Cuando se enfrentan a preguntas que contienen información incorrecta, como juicios erróneos sobre la capital de un país, estos modelos son propensos a dar respuestas consensuales en lugar de refutaciones precisas. Esto genera preocupaciones sobre el riesgo de propagación de información falsa en la realidad.
Los investigadores dicen que el problema central radica en el proceso de refinamiento. Cuando el objetivo es hacer que la IA sea más útil y cómoda, el sistema puede aprender involuntariamente a priorizar la satisfacción del usuario en lugar de la honestidad.
Esto se considera un gran vacío en la industria de la IA actual, especialmente cuando estos sistemas se utilizan cada vez más en contextos sensibles como la atención médica, la educación o el asesoramiento personal.
Sin embargo, el grupo de investigación también reconoce algunas limitaciones. Los experimentos se basan principalmente en modelos a pequeña escala o de generaciones anteriores, que no representan completamente los sistemas más avanzados actuales. Por lo tanto, el nivel de compensación entre la amabilidad y la precisión puede variar en la práctica.
Sin embargo, los resultados de la investigación aún emiten una importante advertencia de que, a medida que la IA se vuelve cada vez más "humana" en la comunicación, es necesario priorizar la garantía de la precisión y la seguridad de la información.