Tsinghua University представили модель, которая масштабирует контекст через визуально-текстовую компрессию

Исследователи из Tsinghua University представили Glyph — экспериментальную модель, которая масштабирует контекст не за счёт роста параметров, а через визуально-текстовую компрессию. Идея проста и при этом гениальна. Длинный текст преобразуется в изображение, которое потом обрабатывается мультимодальной моделью.

Glyph использует LLM-управляемый генетический алгоритм, подбирающий оптимальные параметры отображения (шрифт, плотность строк, компоновку и цветовую схему). Цель в том, чтобы сохранить максимум смысла при минимальном объёме данных. Такой подход снижает вычислительные затраты в разы, но почти не влияет на качество вывода.

На тестах с длинным контекстом Glyph показывает результаты, сопоставимые с Qwen3-8B, а при экстремальном сжатии позволяет vision-language модели с контекстом 128K эффективно решать задачи, эквивалентные миллиону и более токенов в обычных языковых моделях.

По сути, Glyph превращает обработку длинных контекстов из чисто текстовой задачи в мультимодальную. Это может стать новым направлением в развитии больших моделей, где память и визуальная структура текста объединяются в единую когнитивную систему.

Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш Telegram‑канал BotHub AI News.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии