Wikidata получил новую базу данных в векторном исполнении для обработки моделями ИИ

Дочерний проект Wikimedia — Wikidata — получил новую базу данных в векторном исполнении, которую удобнее обрабатывать моделям искусственного интеллекта.

Проект хранит изображения, текст, ключевые слова и другую информацию, связанную с материалами интернет-энциклопедии, в машиночитаемых форматах, таких как JSON.

Обновление базы данных упростит обработку информации большими языковыми моделями. Его проводило немецкое отделение Wikimedia Deutschland, которое курирует Wikidata. Команда использовала масштабную языковую модель, чтобы преобразовать 30 млн записей Wikidata в векторы, отражающие контекст и смысл каждой записи.

В векторизованном формате информацию лучше всего представить в виде графика с точками и взаимосвязанными линиями, пояснила руководитель портфолио Wikidata Лидия Пинчер. Это упрощает разработчикам ИИ доступ к бэкенду, например, при создании собственных чат-ботов.

По словам Пинчер, цель проекта — уравнять условия для разработчиков ИИ, не относящихся к крупным технологическим компаниям. Такие компании, как OpenAI и Anthropic, располагают собственными ресурсами для векторизации Wikidata, но у небольших компаний их нет.

Пинчер приводит в пример проект Govdirectory, который использовал данные Wikidata, собранные волонтёрами, чтобы находить ники в социальных сетях и адреса электронной почты государственных служащих по всему миру.

Команда надеется, что более лёгкий доступ к Wikidata приведёт к созданию систем ИИ, которые лучше отражают узкоспециализированные темы, не представленные широко в интернете. На практике векторизация позволит системам ИИ быстрее получать доступ к контексту информации, а не только к ней самой, рассказал руководитель проекта Wikidata AI Филипп Сааде.

Команда использовала модель от компании Jina AI, занимающейся разработкой ИИ, для преобразования структурированных данных Wikidata в векторные данные. Компания IBM DataStax в настоящее время предоставляет проекту инфраструктуру для хранения векторной базы данных бесплатно.

Команда ждет отзывов от разработчиков, использующих базу данных, прежде чем обновлять её информацией, добавленной за последний год. «В конце концов, вектор, который мы вычисляем, — это что-то вроде общей идеи элемента, поэтому, если в Wikidata было сделано какое-то небольшое изменение, оно не будет иметь большого значения», — заключил Сааде.

Весной сообщалось, что «Википедия» пытается решить проблему перегрузки своих серверов из-за агентов ИИ, которые занимаются веб-скрейпингом. Интернет-энциклопедия выпустила набор данных, специально оптимизированный для обучения моделей искусственного интеллекта. Wikimedia заключил партнёрское соглашение с Kaggle — платформой сообщества науки о данных, принадлежащей Google, где размещаются данные машинного обучения, — для публикации бета‑набора данных «структурированного контента «Википедии» на английском и французском языках».

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии