El 29 de septiembre (hora de EE. UU.) un equipo de investigacion de DeepSeek anuncio un nuevo modelo de prueba llamado V3.2-exp diseñado para reducir significativamente los costos de razonamiento en tareas de contexto largo. Este modelo se presento en la plataforma Hugging Face junto con un articulo academico compartido publicamente en GitHub.
El punto culminante de V3.2-exp radica en el mecanismo DeepSeek Sparse Attention (un sistema de atencion superficial). En lugar de procesar todos los datos este sistema utiliza un modulo llamado 'configuracion de marcadores setmicos' para priorizar la extraccion de textos importantes en la ventana contextual.
Luego otro modulo llamado'sistema de seleccion de codigo de notificacion detallada' seleccionara los tokens importantes para incluirlos en una ventana de atencion limitada. Este enfoque ayuda a reducir la carga del servidor pero aun mantiene la capacidad de procesar segmentos de contexto largos.
Segun las pruebas iniciales DeepSeek dijo que el coste de ejecutar un comando de llamada de la API puede reducirse hasta en un 50% en situaciones que requieren una gran cantidad de contexto.
Aunque se necesitan mas evaluaciones independientes para la autenticacion la publicacion del modelo en Hugging Face pronto abrira el camino para que terceros lo prueben y certifiquen.
El lanzamiento del V3.2-exp continua una serie de esfuerzos para resolver el problema del costo de la deducccion que es uno de los mayores desafios en la operacion del modelo de IA.
A diferencia del costo de capacitacion inicial el costo de la especulacion esta directamente relacionado con la infraestructura de servidores para servir a los usuarios y siempre es una gran carga para las empresas que implementan la IA.
DeepSeek una empresa con sede en China que llamo la atencion a principios de año con el modelo R1 esta principalmente capacitada en aprendizaje intensivo a bajo costo. Sin embargo R1 no ha creado una revolucion como se esperaba y el interes por DeepSeek ha disminuido gradualmente en los ultimos meses.
Sin embargo con este nuevo mecanismo DeepSeek esta mostrando un nuevo enfoque para optimizar la arquitectura transformadora. Esta solucion puede no ser tan ruidosa como R1 pero se considera que aporta lecciones practicas especialmente para los proveedores de servicios de IA en Estados Unidos en un contexto en el que la necesidad de reducir los costos de razonamiento se esta volviendo cada vez mas urgente.