Модель Google Gemini 2.5 Pro превосходит модель OpenAI o3 в обработке сложных и длинных текстов

В настоящее время Google Gemini 2.5 Pro лидирует в тесте Fiction.Live на обработку сложных и длинных текстов. Тест измеряет, насколько хорошо языковые модели могут понимать и точно воспроизводить сложные истории и контексты — задачи, которые выходят далеко за рамки простых функций поиска, таких как те, что оцениваются в популярном тесте «Иголка в стоге сена».

По данным Fiction.Live, модель o3 от OpenAI обеспечивает такую же производительность, как и Gemini 2.5 Pro, до контекстного окна в 128 000 токенов (около 96 000 слов). Но при 192 000 токенов (примерно 144 000 слов) производительность o3 резко падает. Июньский предварительный просмотр Gemini 2.5 Pro (preview-06-05) остается стабильным при этой длине.

o3 обеспечивает безупречную точность при 8-кратном увеличении токенов, затем колеблется при 16-кратном и 60-кратном увеличении и падает при 192-кратном, в то время как Gemini 2.5 Pro (предварительная версия за июнь) восстанавливается после незначительного падения при 8-кратном увеличении и сохраняет точность более 90% до 192-кратного увеличения

Тем не менее, протестированные размеры контекста намного меньше миллиона токенов, которые Google рекламирует как максимальный размер контекста для Gemini 2.5 Pro. По мере увеличения размера контекста точность Gemini, скорее всего, будет снижаться. Для сравнения, модель o3 от OpenAI в настоящее время имеет максимальный размер контекста в 200 000 токенов.

Meta*, например, предлагает контекстное окно размером до десяти миллионов токенов для Llama 4 Maverick. На практике модель с трудом справляется со сложными задачами с длинным контекстом, игнорируя слишком много информации, которая могла бы быть полезной.

Качество важнее количества: исследователь из DeepMind предостерегает от раздувания контекста

Более крупные контекстные окна, даже если модели используют их более эффективно, не всегда автоматически дают лучшие результаты. Как недавно отметил Николай Савинов из Google DeepMind, языковые модели сталкиваются с базовой проблемой «вложил — вынул» при работе с большим количеством токенов.

По словам Савинова, уделяя больше внимания одному токену, вы неизбежно уделяете меньше внимания другим, что приводит к проблемам с распределением, которые могут негативно сказаться на общей производительности.

Савинов рекомендует по возможности избегать ненужной информации в контексте. Хотя исследователи работают над новыми моделями для решения этой проблемы, он считает, что на данный момент лучше всего быть избирательным.

Недавние исследования также показывают, что у моделей ИИ по-прежнему возникают проблемы с анализом длинных контекстов. На практике это означает, что даже если языковая модель может работать с большими документами, такими как длинные PDF-файлы, пользователям всё равно следует заранее удалять ненужные страницы, например вводные разделы, которые не имеют отношения к конкретной задаче.

Пользуясь случаем, хочу порекомендовать BotHub — платформу, где можно протестировать все популярные модели без ограничений. Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и уже сейчас начать работать!

*Meta и её продукты (Instagram, Facebook) запрещены на территории Российской Федерации

Источник

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии