DeepSeek представила OCR-модель, которая обрабатывает текст как изображение

Исследователи из DeepSeek показали, как можно полностью переосмыслить процесс распознавания текста. Их новая модель DeepSeek-OCR работает не с текстовыми токенами, как традиционные системы, а с визуальными представлениями страниц. Это меняет сам принцип хранения и анализа информации.

Обычно OCR-модели по символам превращают текст в токены (чем длиннее документ, тем больше вычислений и выше стоимость обработки). DeepSeek предлагает другой путь: превращать текст в изображение, кодировать его через собственный DeepEncoder в компактные визуальные токены, а потом восстанавливать текст обратно. Результат — в разы меньше затрат при почти той же точности.

В экспериментах модель показала впечатляющие результаты. Даже при десятикратном сжатии точность остаётся около 97%, а при двадцатикратном около 60%. Это значит, что система может хранить длинные документы, не теряя смысла, и делать это в десятки раз эффективнее.

Архитектура DeepSeek-OCR устроена по трёхступенчатому принципу:

Локальное внимание для захвата мелких деталей

 Свёрточное сжатие в 16 раз

 Глобальное внимание для анализа структуры страницы

Кроме того, разработчики внедрили механизм забывания. Старый контекст можно постепенно снижать в разрешении, чтобы свежая информация оставалась точной, а архивные данные занимали меньше места.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии