Google LangExtract: новая библиотека для извлечения структурированных данных из текста с помощью LLM

Google представил LangExtract — новую open-source библиотеку на Python, разработанную для эффективного преобразования больших объемов неструктурированного текста в удобные для анализа структурированные данные. Она предоставляет легковесный интерфейс для работы с большими языковыми моделями (LLM), такими как Gemini, открывая новые возможности для автоматизации извлечения информации.

Точность и прослеживаемость: знайте, откуда получены данные

Одна из ключевых особенностей LangExtract, выделяющая ее на фоне других инструментов, — это уникальный подход к привязке извлеченных сущностей к их источнику. Каждое имя, дата, дозировка или любой другой извлеченный фрагмент информации точно привязывается к символьным смещениям в исходном тексте. Это обеспечивает полную прослеживаемость и верифицируемость результатов: вы всегда можете подсветить найденные данные в оригинальном документе и убедиться в их точности. Больше никаких вопросов о том, «откуда модель это взяла?».

Надежность выходных данных: предсказуемый формат

LangExtract гарантирует надежность получаемых данных. Вы самостоятельно определяете желаемый формат вывода с помощью специального представления данных (например, JSON-схема) и предоставляете модели несколько примеров. Используя эти примеры, библиотека направляет LLM через механизм контролируемой генерации, поддерживаемый в моделях Gemini. Это значит, что вы всегда будете получать данные в консистентном и предсказуемом формате, что критически важно для дальнейшей обработки и анализа.

Работа с большими объемами и гибкость

Библиотека эффективно справляется с действительно большими объемами текста. Она способна разбивать объемные документы на «чанки» (фрагменты), которые затем обрабатываются параллельно в несколько проходов, каждый из которых фокусируется на более узком контексте. Для удобства работы с результатами LangExtract умеет генерировать интерактивную и полностью автономную HTML-визуализацию. Это позволяет буквально за считанные минуты перейти от сырого текста к наглядному представлению, где можно исследовать тысячи извлеченных аннотаций.

Важно отметить, что LangExtract не ограничивается только экосистемой Google. Она поддерживает гибкую смену LLM-бэкендов, позволяя работать как с облачными моделями, так и с опенсорсными решениями, развернутыми локально, что дает разработчикам максимальную свободу выбора.

Обогащение данных и медицинские применения

LangExtract также может использовать «мировые знания» LLM для обогащения извлеченных данных. Информация может быть как явно извлечена из текста, так и дополнена на основе внутренних знаний самой модели. Конечно, точность таких выведенных данных напрямую зависит от возможностей конкретной LLM и качества предоставленных примеров в промпте.

Изначально идеи, заложенные в LangExtract, нашли свое применение в извлечении информации из медицинских текстов. Библиотека отлично показала себя в идентификации лекарств, их дозировок и других атрибутов в клинических записях. Для демонстрации возможностей инструмента в узкоспециализированной области Google создал интерактивное демо RadExtract на Hugging Face. В нем показано, как LangExtract может обработать радиологический отчет, написанный свободным текстом, и автоматически преобразовать его ключевые выводы в структурированный формат, подсвечивая важные находки.

Лицензия: Apache 2.0 License.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии