Gemini 2.0 Flash Thinking: самая маленькая модель Google лидирует на Chatbot Arena

Экспериментальная модель искусственного интеллекта Gemini 2.0 Flash Thinking от Google опередила своих конкурентов, показав впечатляющие результаты в тестах по математике, естественным наукам и общей производительности.

По данным платформы тестирования lmarena.ai, последняя версия Gemini добилась значительных успехов в Chatbot Arena, улучшив свой результат на 17 баллов с декабря 2024 года. Это ставит ее впереди таких конкурентов, как модели GPT-4o от OpenAI и Claude 3.5 Sonnet от Anthropic.

Модель демонстрирует улучшения почти по всем категориям, лидируя в сложных задачах, программировании и творческом письме. Единственная область, где ей еще нужно поработать, — это контроль стиля — то, как она форматирует свои выходные данные.

Под капотом Google заявляет, что они добавили новые функции, такие как выполнение кода, и расширили контекстное окно модели, чтобы обрабатывать до миллиона токенов. Они также улучшили то, насколько хорошо мыслительный процесс модели соответствует ее окончательным ответам.

Генеральный директор Google DeepMind Демис Хассабис говорит, что этот прогресс основывается на более чем десятилетней работе с системами планирования AI, начиная с AlphaGo. Объединив эти проверенные методы планирования с современными базовыми моделями, они увидели особенно сильные результаты в тестировании по математике и естественным наукам.

Это обновление следует за первой версией Flash 2.0 Thinking, которую Google запустил в декабре 2024 года . В той версии были введены явные мыслительные процессы, которые помогают модели улучшить свои рассуждения, и она также хорошо показала себя при тестировании.

Источник

Источник: habr.com

0 0 голоса

Рейтинг новости

1200

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”