NASA в сотрудничестве с IBM разработала INDUS — мощный инструмент на основе больших языковых моделей (LLMs), специализированный для научных областей. INDUS включает в себя два типа моделей: кодеры и модели преобразования предложений.
Кодеры обучены на корпусе из 60 миллиардов токенов, охватывающем астрофизику, планетологию, науку о Земле, биологию и физику. Использование специализированного токенизатора позволяет моделям лучше распознавать научные термины, такие как «биомаркеры» и «фосфорилированные».
INDUS успешно превзошел общедоступные LLMs в биомедицинских задачах, вопросно-ответных бенчмарках и распознавании сущностей в науке о Земле. Модели INDUS обеспечивают высокую скорость работы и точность, что особенно важно для задач с низкой задержкой. Они интегрированы в системы NASA для улучшения доступа к научным данным и повышения производительности кураторов.
INDUS также используется для категоризации публикаций и поиска данных GES-DISC, что улучшает пользовательский опыт и эффективность научных исследований. Модели INDUS доступны в открытом доступе на Hugging Face, поддерживая прозрачность и доступность в искусственном интеллекте.
Источник: www.ferra.ru