Microsoft acaba de anunciar el Fara-7B el primer modelo de microprogramador de IA de la compañia capaz de usar computadoras humanas a traves de solo una captura de pantalla.
A diferencia de los sistemas de agentes complejos que dependen de una gran infraestructura en la nube el Fara-7B esta diseñado para ejecutarse directamente en el dispositivo lo que ayuda a reducir la latencia aumentar la privacidad y abrir una nueva forma de interaccion PC.
Fara-7B pertenece al grupo de modelos de lenguajes pequeños (SLM) que Microsoft persigue desde el año pasado continuando con la linea Phi integrada en Windows 11.
Sin embargo Fara 7B es un paso mas importante cuando se construye como un Agente de Uso de la Computadora (CUA) un modelo que puede entender la interfaz de la computadora analizar las imagenes de la pantalla y realizar acciones reales como hacer clic en un cuadro de texto o navegar por la web.
Gracias a ello los usuarios pueden asignar al modelo una serie de tareas comunes sin necesidad de intervencion manual.
El punto especial del Fara-7B es la simplicidad. La mayoria de los modelos CUA actuales necesitan un gran sistema de servidores en la nube muchos sistemas complejos y una enorme potencia de calculo solo para analizar pantallas.
Microsoft dice que el Fara-7B es solo un modelo unico independiente de un modelo auxiliar o una matriz compleja pero aun logra un rendimiento comparable al de los agentes de IA a gran escala.
Con un tamaño de 7 mil millones de parametros el modelo se puede ejecutar directamente en una PC personal al tiempo que garantiza que los datos de los usuarios no tengan que enviarse a la nube.
Para capacitar a Fara-7B Microsoft construyo el sistema de datos agregados FaraGen donde los agentes de IA simulan el comportamiento humano en mas de 70.000 nombres de dominio reales.
Cada sesion de trabajo consta de muchos pasos como la prueba de vuelta la rotacion la busqueda y el procesamiento de errores y esta evaluado por tres modelos de IA independientes garantizando la racionalidad.
Despues del proceso de seleccion se conservan mas de 145.000 versiones con mas de 1 millon de acciones para el entrenamiento del modelo.
El rendimiento real muestra que el Fara-7B consume alrededor de 124.000 tokens de entrada y 1.100 tokens de salida por operacion.
Los puntajes estandar del modelo tambien son impresionantes ya que el 73,5% en Web Voyager el 34 1% en OnlineMind 2 Web el 26 2% en DeepShop y el 38 4% en WebTailBench se centran en tareas reales como encontrar trabajo o buscar propiedades.
El Fara-7B esta actualmente disponible en Microsoft Foundry y Hugging Face con licencia del MIT. Microsoft tambien lanzo la optimizacion cuantica para PC Copilot+ con Windows 11 que permite a la comunidad probarlo directamente.
Con su apertura y capacidad de funcionamiento local el Fara-7B promete convertirse en una plataforma para impulsar la ola de desarrollo de agentes de IA que automaticen las tareas diarias.