La startup china de IA DeepSeek acaba de anunciar DeepSeek-OCR un nuevo modelo de IA multidimensional capaz de procesar enormes cantidades de documentos con costos de calculo significativamente mas bajos.
Este modelo puede crear hasta 200.000 paginas de datos de formacion al dia con solo una GPU Nvidia A100 lo que demuestra el avance en el rendimiento y la optimizacion de los recursos en la investigacion de IA.
Segun DeepSeek el DeepSeek-OCR aprovecha la percepcion visual para comprimir el texto lo que ayuda a los modelos de lenguaje grandes (LLM) a procesar contextos mas largos sin limitar la memoria.
En lugar de leer el texto de la manera habitual el modelo convierte el texto en imagenes y luego utiliza un encriptador visual para reducir los datos manteniendo el 97% de la informacion original.
Como resultado el numero de codigos de notificacion (tokens) que se deben procesar se reduce de 7 a 20 veces en comparacion con los metodos tradicionales.
El modelo consta de dos partes: DeepEncoder con 380 millones de parametros para el analisis y compresion de imagenes junto con la creacion de texto de 570 millones de parametros construidos sobre un modelo de lenguaje experto (MoE) de tres mil millones de parametros.
Segun documentos tecnicos DeepSeek-OCR ha sido entrenado con mas de 30 millones de paginas PDF en mas de 100 idiomas incluidos chino e ingles junto con millones de diagramas formulas quimicas y matematicas complejas.
Los resultados de las pruebas muestran que DeepSeek-OCR es superior a los modelos OCR existentes. En el estandar OmniDocBench el modelo solo necesita unos 100 codigos de notificacion visual por pagina menos que GOT-OCR2.0 (256 tokens) y MinerU2.0 (mas de 6.000 tokens por pagina).
En el estandar Fox DeepSeek-OCR tambien muestra una capacidad superior para concentrar y analizar documentos PDF densos.
Con DeepSeek-OCR la empresa se ha fijado el objetivo de resolver uno de los mayores desafios de LLM: mantener la comprension del contexto a largo plazo sin desperdiciar recursos.
El anuncio del codigo fuente y el peso del modelo en plataformas abiertas como Hugging Face y GitHub tambien muestra el compromiso de DeepSeek de promover la transparencia y la cooperacion en la comunidad global de IA.
Esta no es la primera vez que DeepSeek llama la atencion. Anteriormente los modelos DeepSeek-V3 y R1 habian alcanzado un rendimiento equivalente a sistemas avanzados como el o1 de OpenAI pero a un costo de solo una pequeña parte.
Sin embargo algunos expertos en Estados Unidos todavia cuestionan la declaracion de bajo costo y el proceso de desarrollo de esta empresa.
A pesar de la controversia DeepSeek-OCR marca un paso importante en los esfuerzos por reducir costos y aumentar la eficiencia de la industria de la IA abriendo una nueva direccion en la combinacion de la vision computacional y el procesamiento del lenguaje natural.