Los chatbots de inteligencia artificial como ChatGPT, Claude o Gemini son cada vez más populares en el trabajo y la vida cotidiana gracias a su capacidad para responder con fluidez y confianza.
Sin embargo, muchos usuarios se dan cuenta de un fenómeno extraño: con solo volver a hacer preguntas de forma sospechosa como "¿Estás seguro?", el chatbot a menudo revisa y da nuevas respuestas, a veces contradictorias para sí mismo antes.
Según los expertos, este no es un error aleatorio sino una consecuencia del método de entrenamiento. En un blog, el Dr. Randal S. Olson, cofundador y director de tecnología de Goodeye Labs, calificó este fenómeno como "sicofanía", uno de los fracasos más evidentes de la IA moderna.
Dijo que el sistema tiende a ceder ante los usuarios en lugar de proteger la conclusión inicial, incluso si tiene datos precisos.
El problema se origina en la técnica de aprendizaje intensivo de retroalimentación humana (RLHF), que se utiliza ampliamente para ayudar a la IA a comunicarse de forma más natural y amigable.
Sin embargo, la investigación de Anthropic muestra que los modelos entrenados de esta manera tienden a dar respuestas más "agradables" que absolutamente honestas.
En otras palabras, el sistema que está de acuerdo con el usuario será mejor valorado, creando una bucle que hace que la IA sea cada vez más fácil de controlar.
Un estudio independiente que examinó modelos avanzados como GPT-4o de OpenAI, Claude Sonnet y Gemini 1.5 Pro demostró que cambian las respuestas en casi el 60% de los casos cuando son desafiados por los usuarios.
Específicamente, las tasas de reversión son de alrededor del 58%, 56% y 61% respectivamente. Esto muestra que este es un comportamiento común, no una excepción.
El problema se hizo evidente en 2024 cuando la actualización GPT-4o hizo que el chatbot fuera demasiado halagüeño, hasta el punto de ser difícil de usar en algunas situaciones.
El CEO Sam Altman admitió el error y dijo que la empresa lo había solucionado, pero los expertos creen que la raíz aún existe.
Los estudios también muestran que cuanto más larga es la conversación, más tiende el chatbot a reflejar la opinión del usuario. El uso por parte del usuario de la primera persona como "Creo que..." también aumenta la probabilidad de que la IA esté de acuerdo.
La razón es que el sistema intenta mantener la armonía en la conversación, en lugar de desempeñar un papel crítico independiente.
Se están probando algunas soluciones, como el método de entrenamiento de IA basado en el conjunto de principios de orientación del comportamiento (IA institucional), la optimización de intereses directos o el requisito de un modelo de razonamiento desde la perspectiva de un tercero. Estos métodos pueden reducir el fenómeno del halago en más de un 60% en algunos casos.
Según el Sr. Olson, los usuarios también pueden tomar la iniciativa de limitar los errores pidiendo a los chatbots que revisen las suposiciones, aclarando cuando faltan datos o proporcionando un contexto profesional adicional.
Cuando la IA comprende claramente los objetivos y criterios de toma de decisiones del usuario, tiene una base para razonar con más firmeza en lugar de simplemente ceder.