MongoDB приобретает Voyage AI для улучшения генерации с использованием расширенного поиска

Чтобы получить наилучший результат от запроса к ИИ, организациям нужны максимально точные данные. Ответ, который помог многим организациям справиться с этой задачей, — это генерация с использованием расширенного поиска (RAG). При использовании RAG результаты основаны на данных из базы данных. Однако, как оказалось, не все RAG одинаковы, и оптимизация базы данных для достижения наилучших результатов может быть непростой задачей.

В частности, проблема галлюцинаций и точности по-прежнему сдерживает некоторые организации от внедрения ИИ в производство. В связи с этим компания MongoDB сегодня объявила о приобретении частной компании Voyage AI, которая разрабатывает передовые модели встраивания и поиска. Voyage привлекла 20 миллионов долларов в октябре 2024 года в рамках раунда финансирования, организованного гигантом облачных данных Snowflake. Благодаря этому приобретению опыт Voyage AI в области встраивания и повторного ранжирования, важнейших компонентов поиска и извлечения данных с помощью ИИ, будет напрямую использоваться в платформе баз данных MongoDB.

«В течение последнего года, особенно по мере того, как организации пытались понять, как они могут создавать приложения на основе ИИ, становилось всё более очевидным, что качество и надёжность создаваемых ими приложений или их отсутствие становились одним из препятствий для применения ИИ в критически важных сценариях использования», — рассказал VentureBeat директор по продуктам MongoDB Сахир Азам.

Основная идея RAG заключается в том, что вместо того, чтобы просто полагаться на базу знаний, полученную из обученных данных, система искусственного интеллекта может получать обоснованные данные из базы данных.

Создание высокоточного RAG — довольно сложная задача, и всё же существует потенциальный риск возникновения галлюцинаций — проблема, с которой сталкиваются MongoDB и её пользователи. Хотя Азам отказался приводить конкретные примеры или случаи, когда RAG на основе ИИ подводил пользователей, он отметил, что точность всегда вызывает опасения.

Повышение точности и уменьшение количества галлюцинаций включает в себя несколько этапов. Первый — это повышение качества извлечения (буква «R» в RAG).

«Во многих случаях качество поиска недостаточно высокое, — сказал Тенгю Ма, основатель и генеральный директор Voyage AI, в интервью VentureBeat. — На этапе поиска, если они не находят нужную информацию, поиск не очень полезен, и большая языковая модель (LLM) выдаёт галлюцинации, потому что ей приходится угадывать контекст».

Модели Voyage AI, которые теперь являются частью MongoDB, помогают улучшить RAG несколькими ключевыми способами:

Доменные модели и ре-ранкеры: они обучаются на больших объёмах неструктурированных данных из конкретных отраслей, что позволяет им лучше понимать терминологию и семантику этих областей.

Настройка и тонкая регулировка: пользователи могут настроить механизм поиска для уникальных наборов данных и сценариев использования.

MongoDB — не первый и не единственный поставщик, который осознаёт необходимость и ценность высокооптимизированной технологии встраивания и повторного ранжирования. В конце концов, это одна из причин, по которой Snowflake инвестировала в Voyage AI и использует модели этой компании.

Прямая интеграция передовых моделей встраивания в базу данных — это подход, к которому прибегают и другие конкурирующие поставщики баз данных. Еще в июне 2024 года компания DataStax анонсировала собственную технологию RAGStack, которая сочетает в себе передовые модели встраивания и поиска.

Однако Азам утверждал, что MongoDB немного отличается от других. Во-первых, это операционная база данных, а не аналитическая. Кроме того, в отличие от простого предоставления информации и анализа, MongoDB помогает осуществлять транзакции и реальные операции. MongoDB также известна как «база данных с моделью документов», которая имеет другую структуру, чем традиционная реляционная база данных. Эта структура не основана на столбцах и таблицах, которые не очень хорошо подходят для представления информации о неструктурированных данных (важный элемент для приложений ИИ).

«Мы — единственная технология баз данных, которая объединяет управление метаданными об информации о клиентах, операциях и транзакциях, что является основой всего, что происходит в бизнесе, а также базой для поиска — и всё это в рамках единой системы», — сказал Азам.

Потребность в высокоточных моделях встраивания и поиска данных ещё больше возрастает в связи с развитием агентского ИИ.

«Агентному ИИ по-прежнему нужны методы поиска, потому что агент не может принимать решения вне контекста, — сказал Ма. — Иногда даже в одном решении используются несколько компонентов поиска».

Ма отметил, что Voyage AI в настоящее время работает над конкретными моделями, которые адаптированы для использования в агентском ИИ. Он объяснил, что агентский ИИ может использовать различные типы запросов, которые всё равно можно оптимизировать.

По мере того как генеративный ИИ всё чаще используется в рабочих процессах, необходимость устранения риска возникновения галлюцинаций становится первостепенной задачей. Несмотря на то, что MongoDB успешно работает с генеративным ИИ, Azam ожидает, что интеграция Voyage AI откроет новые возможности для критически важных рабочих процессов.

«Если мы сейчас можем сказать: «Эй, мы можем обеспечить точность ваших приложений на уровне 90% и выше, в то время как сегодня в некоторых случаях точность результатов может достигать только 30 или 60%», то спектр возможностей, которые люди могут использовать ИИ в своих программных приложениях, расширяется», — сказал Азам.

Источник

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии