Segun el informe tecnico de OpenAI, los nuevos modelos o3 y o4-mini presentan una tasa de generacion de informacion erronea mas alta que los modelos de inferencia anteriores como o1, o1-mini y o3-mini, asi como los modelos de IA tradicionales como GPT-4o.
En el examen interno de PersonQA, o3 genero informacion erronea en el 33% de las preguntas, el doble que o1 y o3-mini. Mas preocupante aun, el o4-mini es incluso erroneo en el 48% de los casos.
OpenAI admite que no esta claro por que los nuevos modelos son mas "alucinantes". La teoria inicial era que los metodos de aprendizaje intensivo que se estaban utilizando podrian haber amplificado el problema involuntariamente.
Sin embargo, o3 todavia muestra una capacidad superior en algunas areas como la programacion y las matematicas. Muchos equipos de desarrollo estan experimentando con la integracion de O3 en el proceso de trabajo, pero advierten que la IA a veces crea malos enlaces o conduce a informacion que no existe.
El problema de la "audencia" hace que las empresas, especialmente en areas que requieren alta precision como la legal, tengan dificultades para aplicar la IA. Una solucion posible es la integracion de la funcion de busqueda web, como la forma en que GPT-4o alcanza actualmente un 90% de precision en algunas pruebas.
OpenAI afirma que continua trabajando para reducir el fenomeno de la "alucinacion" en todas sus lineas de IA. En un contexto en el que la industria de la IA esta cambiando a modelos de razonamiento, el control de la "intuicion" se esta convirtiendo en un desafio urgente.