Wikidata получил новую базу данных в векторном исполнении для обработки моделями ИИ

Дочерний проект Wikimedia — Wikidata — получил новую базу данных в векторном исполнении, которую удобнее обрабатывать моделям искусственного интеллекта.

Проект хранит изображения, текст, ключевые слова и другую информацию, связанную с материалами интернет-энциклопедии, в машиночитаемых форматах, таких как JSON.

Обновление базы данных упростит обработку информации большими языковыми моделями. Его проводило немецкое отделение Wikimedia Deutschland, которое курирует Wikidata. Команда использовала масштабную языковую модель, чтобы преобразовать 30 млн записей Wikidata в векторы, отражающие контекст и смысл каждой записи.

В векторизованном формате информацию лучше всего представить в виде графика с точками и взаимосвязанными линиями, пояснила руководитель портфолио Wikidata Лидия Пинчер. Это упрощает разработчикам ИИ доступ к бэкенду, например, при создании собственных чат-ботов.

По словам Пинчер, цель проекта — уравнять условия для разработчиков ИИ, не относящихся к крупным технологическим компаниям. Такие компании, как OpenAI и Anthropic, располагают собственными ресурсами для векторизации Wikidata, но у небольших компаний их нет.

Пинчер приводит в пример проект Govdirectory, который использовал данные Wikidata, собранные волонтёрами, чтобы находить ники в социальных сетях и адреса электронной почты государственных служащих по всему миру.

Команда надеется, что более лёгкий доступ к Wikidata приведёт к созданию систем ИИ, которые лучше отражают узкоспециализированные темы, не представленные широко в интернете. На практике векторизация позволит системам ИИ быстрее получать доступ к контексту информации, а не только к ней самой, рассказал руководитель проекта Wikidata AI Филипп Сааде.

Команда использовала модель от компании Jina AI, занимающейся разработкой ИИ, для преобразования структурированных данных Wikidata в векторные данные. Компания IBM DataStax в настоящее время предоставляет проекту инфраструктуру для хранения векторной базы данных бесплатно.

Команда ждет отзывов от разработчиков, использующих базу данных, прежде чем обновлять её информацией, добавленной за последний год. «В конце концов, вектор, который мы вычисляем, — это что-то вроде общей идеи элемента, поэтому, если в Wikidata было сделано какое-то небольшое изменение, оно не будет иметь большого значения», — заключил Сааде.

Весной сообщалось, что «Википедия» пытается решить проблему перегрузки своих серверов из-за агентов ИИ, которые занимаются веб-скрейпингом. Интернет-энциклопедия выпустила набор данных, специально оптимизированный для обучения моделей искусственного интеллекта. Wikimedia заключил партнёрское соглашение с Kaggle — платформой сообщества науки о данных, принадлежащей Google, где размещаются данные машинного обучения, — для публикации бета‑набора данных «структурированного контента «Википедии» на английском и французском языках».

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”