Un nuevo estudio de OpenAI acaba de plantear una pregunta espinosa: '¿Por que los modelos de lenguajes grandes (LLM) como GPT-5 o chatbot ChatGPT todavia crean alucinaciones debido a la informacion que suena razonable pero es erronea? Y lo que es mas importante ¿que se puede hacer para minimizar este fenomeno?
En una publicacion de blog resumiendo la investigacion OpenAI reconoce que la alucinacion es un desafio fundamental de todos los modelos lingüisticos dificil de eliminar por completo.
Para ilustrar este argumento los investigadores examinaron a un chatbot popular sobre la tesis doctoral de Adam Tauman Kalai (autor del estudio).
Como resultado el sistema dio tres respuestas diferentes y todas fueron incorrectas. Incluso cuando se le pregunto su fecha de nacimiento la respuesta seguia siendo incorrecta.
Segun los investigadores este fenomeno se origino en el metodo de entrenamiento inicial. El modelo lingüistico aprende principalmente a predecir las siguientes palabras en la cadena de texto en lugar de etiquetar correctamente o incorrectamente cada dato.
Los detalles comunes como la ortografia los signos de pesca se pueden aprender facilmente con precision gracias a las leyes constantes. Por el contrario la informacion escasa y la frecuencia baja como la fecha de nacimiento de un individuo dificulta que el modelo predice con precision lo que lleva a la alucinacion.
Un punto notable es que la investigacion no señala que la fase de entrenamiento sea la causa principal sino que enfatiza mas la forma en que se evalua el modelo.
Actualmente la mayoria del sistema esta calificado por el numero de respuestas correctas absolutas creando involuntariamente un modelo que se fomenta la especulacion en lugar de admitir que no lo sabe.
Los autores comparan este mecanismo con un examen de opcion multiple como el hecho de que los candidatos que adivinan vagamente todavia tienen la oportunidad de obtener puntos mientras que los que estan vacios definitivamente pierden puntos. Del mismo modo cuando la IA solo se evalua basandose en la precision absoluta el sistema tendera a 'adivinar para que suene razonable' en lugar de admitir que no es seguro.
La solucion propuesta es cambiar la forma de puntuar al igual que el examen SAT tiene puntos negativos para las respuestas incorrectas.
Con la IA esto significa castigar severamente las respuestas seguras pero incorrectas mientras que solo castigar levemente o incluso recompensar parcialmente las respuestas que expresan incertidumbre.
Mientras la tabla de notas siga recompensando las predicciones de la suerte el modelo seguira aprendiendo a predecir' concluyo el grupo de investigacion.
Este estudio no solo aclara la causa profunda de la 'psicologia de la IA' sino que tambien abre una direccion para cambiar el mecanismo de evaluacion para alentar al modelo a reconocer sus limites en lugar de confiar en las respuestas equivocadas.