Wikimedia Deutschland acaba de anunciar el proyecto Wikidata Embedding una nueva base de datos que ayuda a los modelos de IA a acceder y comprender la rica biblioteca de conocimientos de Wikipedia mas facilmente.
El sistema aplica una busqueda de significado basada en vectores una tecnica que ayuda a las computadoras a identificar el significado y las relaciones entre las palabras para casi 120 millones de entradas en Wikipedia y plataformas relacionadas.
El proyecto tambien integra el Interfaz de Contexto Modelo (MCP) un estandar que ayuda a los sistemas de IA a comunicarse directamente con la fuente de datos.
Gracias a esto los modelos de lenguajes grandes (LLM) pueden realizar consultas en lenguaje natural mejorando la capacidad de recopilar y utilizar informacion precisa de Wikipedia.
El proyecto esta implementado por Wikimedia Deutschland en colaboracion con Jina.AI y DataStax una empresa de datos de formacion en tiempo real propiedad de IBM.
Anteriormente Wikidata solo admitia la busqueda de palabras clave y el interrogatorio SPARQL limitando la capacidad de explotacion para la IA.
El nuevo sistema funciona bien con modelos de creacion de datos de acceso aumentado (RAG) que ayudan a la IA a recopilar informacion externa y construir conocimientos basados en datos que han sido verificados por el editor de Wikipedia.
Los datos tambien estan estructurados para proporcionar contexto y significado por ejemplo el interrogatorio de 'cientifico' devolvera a una lista de cientificos nucleares famosos investigadores que trabajaron en Bell Labs traducciones a varios idiomas imagenes de licencias junto con conceptos relacionados como 'estudiante' o 'cientifico'.
Esta base de datos se puede acceder publicamente en Toolforge y Wikidata organizara una conferencia en linea para desarrolladores el 9 de octubre.
El proyecto nacio en un contexto en el que los desarrolladores de IA estan buscando fuentes de datos de alta calidad para perfeccionar el modelo.
Con la creciente complejidad de los sistemas de formacion de IA la necesidad de datos fiables es cada vez mas urgente especialmente cuando Wikipedia proporciona informacion mas precisa que grandes conjuntos de datos como Common Crawl.
Philippe Saade gerente de proyectos de IA de Wikidata destaco la independencia y la colaboracion del proyecto: 'La IA poderosa no necesariamente tiene que ser controlada por un pequeño grupo de empresas. Puede ser abierta colaborativa y servir a todos'.