Google acaba de anunciar VaultGemma un modelo de IA de nueva generacion diseñado especificamente para proteger la privacidad de los datos y prevenir el riesgo de fugas durante la formacion.
Este es el proximo esfuerzo del gigante tecnologico en un contexto en el que los grandes modelos de lenguaje (LLM) se cuestionan continuamente sobre la capacidad de almacenar y reproducir informacion sensible.
VaultGemma se desarrollo desde el principio con un mecanismo de privacidad diferenciada (Differential Privacy – DP) que ayuda al modelo a no recordar y reproducir los datos de formacion originales.
Segun Google este es el modelo de lenguaje abierto mas grande jamas entrenado con DP con una escala de mil millones de parametros marcando un paso importante en la construccion de IA privada segun el diseño.
En particular el peso de VaultGemma se ha lanzado de forma gratuita en plataformas como Hugging Face y Kaggle abriendo oportunidades para que la comunidad de investigacion y desarrollo de IA explote y pruebe.
Google dijo que ha cooperado estrechamente con DeepMind para establecer nuevas reglas de expansion para el entrenamiento equilibrando asi tres factores: privacidad rendimiento y costos de calculo.
Durante muchos años los expertos han advertido continuamente sobre el riesgo de fuga de datos de LLM.
Al enviar el mensaje correcto el atacante puede obligar al modelo a revelar informacion confidencial.
Un ejemplo tipico es la demanda entre el New York Times y OpenAI en la que la editorial acuso a ChatGPT de recrear el texto original de algunos de sus articulos.
En lugar de solo aplicar medidas de proteccion de la privacidad a nivel de usuario como se ve habitualmente Google ha integrado la privacidad diferenciada (DP) en el proceso de formacion añadiendo capas de interferencia para evitar que el modelo recuerde y regenere los datos originales.
Sin embargo esta solucion tambien plantea desafios cuando el proceso de entrenamiento es menos estable el tamaño del lote tiene que aumentar y los costos de calculo son mas altos.
A pesar de los intercambios Google afirma que su importante descubrimiento es que puede capacitar un modelo mas pequeño pero mas efectivo cuando se aplica a gran escala en un entorno con DP.
Con VaultGemma Google espera establecer nuevos estandares para la industria de la IA no solo fuertes sino tambien seguros y respetuosos con la privacidad de los usuarios desde la plataforma.