Consultar la IA mas facilmente con la base de datos de 120 millones de entradas de Wikipedia

Cát Tiên (THEO techcrunch) |

El proyecto Wikidata Embedding ayuda a la IA a acceder facilmente a los datos de Wikipedia mejorando la comprension y el uso de la informacion precisa.

Wikimedia Deutschland acaba de anunciar el proyecto Wikidata Embedding una nueva base de datos que ayuda a los modelos de IA a acceder y comprender la rica biblioteca de conocimientos de Wikipedia mas facilmente.

El sistema aplica una busqueda de significado basada en vectores una tecnica que ayuda a las computadoras a identificar el significado y las relaciones entre las palabras para casi 120 millones de entradas en Wikipedia y plataformas relacionadas.

El proyecto tambien integra el Interfaz de Contexto Modelo (MCP) un estandar que ayuda a los sistemas de IA a comunicarse directamente con la fuente de datos.

Gracias a esto los modelos de lenguajes grandes (LLM) pueden realizar consultas en lenguaje natural mejorando la capacidad de recopilar y utilizar informacion precisa de Wikipedia.

El proyecto esta implementado por Wikimedia Deutschland en colaboracion con Jina.AI y DataStax una empresa de datos de formacion en tiempo real propiedad de IBM.

Anteriormente Wikidata solo admitia la busqueda de palabras clave y el interrogatorio SPARQL limitando la capacidad de explotacion para la IA.

El nuevo sistema funciona bien con modelos de creacion de datos de acceso aumentado (RAG) que ayudan a la IA a recopilar informacion externa y construir conocimientos basados en datos que han sido verificados por el editor de Wikipedia.

Los datos tambien estan estructurados para proporcionar contexto y significado por ejemplo el interrogatorio de 'cientifico' devolvera a una lista de cientificos nucleares famosos investigadores que trabajaron en Bell Labs traducciones a varios idiomas imagenes de licencias junto con conceptos relacionados como 'estudiante' o 'cientifico'.

Esta base de datos se puede acceder publicamente en Toolforge y Wikidata organizara una conferencia en linea para desarrolladores el 9 de octubre.

El proyecto nacio en un contexto en el que los desarrolladores de IA estan buscando fuentes de datos de alta calidad para perfeccionar el modelo.

Con la creciente complejidad de los sistemas de formacion de IA la necesidad de datos fiables es cada vez mas urgente especialmente cuando Wikipedia proporciona informacion mas precisa que grandes conjuntos de datos como Common Crawl.

Philippe Saade gerente de proyectos de IA de Wikidata destaco la independencia y la colaboracion del proyecto: 'La IA poderosa no necesariamente tiene que ser controlada por un pequeño grupo de empresas. Puede ser abierta colaborativa y servir a todos'.

Cát Tiên (THEO techcrunch)
Noticias relacionadas

Detalles sobre 6 nuevas funciones en iOS y Android que WhatsApp acaba de agregar

|

WhatsApp acaba de anunciar una nueva actualizacion en iOS y Android que agrega 6 caracteristicas destacadas para ayudar a los usuarios a conversar compartir fotos y documentos de forma mas conveniente.

ChatGPT lanza una funcion para crear retratos de IA de superheroes competitivos Gemini Nano Banana

|

OpenAI integra la funcion de creacion de retratos de accion de IA superheroes en ChatGPT compitiendo directamente con Gemini Nano Banana.

Wikipedia endurece el control del contenido basura de la IA

|

Wikipedia refuerza las medidas contra el contenido basura de la IA endurece las reglas de eliminacion rapida y desarrolla herramientas para ayudar a los editores a proteger la neutralidad de los articulos.

Tras la fusion del Hospital E en Bach Mai ¿se veran afectados los derechos de los pacientes?

|

La propuesta de fusionar el Hospital E con el Hospital Bach Mai hace que muchos pacientes se pregunten si sus derechos de examen y tratamiento medico se veran afectados.

Un pais de casi 600.000 habitantes gana un billete para la Copa Mundial de 2026

|

La seleccion de Cabo Verde hizo historia al participar por primera vez en la Copa Mundial.

El caso de la fabrica de molienda de arroz causa polvo brumoso y la gente esta indignada por el retraso en el tratamiento

|

Vinh Long - Si la fabrica de molienda de arroz no trata completamente el ceniza antes del 15 de noviembre los residentes de la comuna de Quoi An informaran directamente a las agencias de alto nivel.

Rusia declara que Estados Unidos se enfrentara a las consecuencias al suministrar misiles Tomahawk a Ucrania

|

El ex presidente ruso advirtio que el suministro de Tomahawks a Ucrania por parte de Estados Unidos podria causar problemas a todas las partes especialmente al presidente Trump.

Nueva informacion sobre el caso de un hogar que construye una valla que bloquea el patio de la guarderia para reclamar terrenos

|

Thanh Hoa - Despues de muchos meses de construir una valla en medio del patio de la guarderia los hogares de la comuna de Trieu Son se ofrecieron voluntariamente a demolerla creando condiciones para la enseñanza y el aprendizaje.

Detalles sobre 6 nuevas funciones en iOS y Android que WhatsApp acaba de agregar

Cát Tiên (THEO hindustantimes) |

WhatsApp acaba de anunciar una nueva actualizacion en iOS y Android que agrega 6 caracteristicas destacadas para ayudar a los usuarios a conversar compartir fotos y documentos de forma mas conveniente.

ChatGPT lanza una funcion para crear retratos de IA de superheroes competitivos Gemini Nano Banana

Cát Tiên (T/H) |

OpenAI integra la funcion de creacion de retratos de accion de IA superheroes en ChatGPT compitiendo directamente con Gemini Nano Banana.

Wikipedia endurece el control del contenido basura de la IA

Cát Tiên (T/H) |

Wikipedia refuerza las medidas contra el contenido basura de la IA endurece las reglas de eliminacion rapida y desarrolla herramientas para ayudar a los editores a proteger la neutralidad de los articulos.