Baidu представила мультимодальную ERNIE, которая обходит GPT и Gemini в ключевых тестах

Baidu выпустила новую мультимодальную модель ERNIE-4.5-VL-28B-A3B-Thinking, и по ряду бенчмарков она уже показывает результаты выше GPT-5 и Gemini 2.5 Pro. Главный акцент — на корпоративных данных, которые остаются недоступными для классических текстовых моделей: инженерные схемы, видео с производственных линий, медицинские изображения и другой «тяжёлый» контент.

Архитектурно ERNIE примечательна тем, что остаётся «лёгкой»: в процессе работы активируется порядка трёх миллиардов параметров. Это снижает стоимость инференса и делает модель потенциально более пригодной для проектов, где масштабирование ИИ тормозится из-за цены вычислений. В Baidu видят в этом основу для мультимодальных агентов нового поколения — не просто распознающих, но и способных рассуждать, принимать решения и действовать.

Модель демонстрирует уверенную работу с плотными визуальными данными: от анализа графиков с подсказками по оптимальному времени посещения до решения схем с применением законов Ома и Кирхгофа. В технических департаментах такая система может проверять проектные документы или помогать новичкам разбираться в сложных чертежах.

По данным Baidu, ERNIE опередила конкурентов на нескольких популярных тестах:

MathVista: ERNIE (82.5) против Gemini (82.3) и GPT (81.3)

ChartQA: ERNIE (87.1) против Gemini (76.3) и GPT (78.2)

VLMs Are Blind: ERNIE (77.3) против Gemini (76.5) и GPT (69.6)

При этом Baidu подчёркивает очевидное: бенчмарки — индикатор, но не гарантия реальных результатов. Перед внедрением ИИ в критичные процессы нужен внутренний пилот.

Одно из ключевых направлений развития ERNIE — переход от «понимания» к автоматизации. Модель умеет находить объекты на изображении, возвращать координаты в структурированном виде, увеличивать нужный фрагмент для чтения текста, а при необходимости — инициировать поиск по изображению. Это уже не пассивный ассистент, а инструмент, который может сам анализировать данные, уточнять детали и предлагать варианты действий.

Ставка делается и на корпоративные видеоархивы. ERNIE извлекает субтитры, привязывает их к тайм-кодам, находит нужные сцены по визуальным признакам и превращает многолетние видеотеки в полноценный поисковый индекс.

Развёртывание, впрочем, потребует внушительных ресурсов: одного GPU с 80 ГБ видеопамяти. Для компаний, у которых инфраструктура уже есть, Baidu предлагает ERNIEKit — инструментарий для тонкой настройки модели на собственных данных. Лицензия Apache 2.0 позволяет коммерческое использование, что важно для интеграции в продукты и сервисы.

Чтобы не пропустить анонс новых материалов подпишитесь на «Голос Технократии» — мы регулярно рассказываем о новостях про AI, LLM и RAG, а также делимся полезными мастридами и актуальными событиями.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии