Исследователи из DeepSeek показали, как можно полностью переосмыслить процесс распознавания текста. Их новая модель DeepSeek-OCR работает не с текстовыми токенами, как традиционные системы, а с визуальными представлениями страниц. Это меняет сам принцип хранения и анализа информации.
Обычно OCR-модели по символам превращают текст в токены (чем длиннее документ, тем больше вычислений и выше стоимость обработки). DeepSeek предлагает другой путь: превращать текст в изображение, кодировать его через собственный DeepEncoder в компактные визуальные токены, а потом восстанавливать текст обратно. Результат — в разы меньше затрат при почти той же точности.
В экспериментах модель показала впечатляющие результаты. Даже при десятикратном сжатии точность остаётся около 97%, а при двадцатикратном около 60%. Это значит, что система может хранить длинные документы, не теряя смысла, и делать это в десятки раз эффективнее.
Архитектура DeepSeek-OCR устроена по трёхступенчатому принципу:
Локальное внимание для захвата мелких деталей
Свёрточное сжатие в 16 раз
Глобальное внимание для анализа структуры страницы
Кроме того, разработчики внедрили механизм забывания. Старый контекст можно постепенно снижать в разрешении, чтобы свежая информация оставалась точной, а архивные данные занимали меньше места.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Источник
Источник: habr.com