Google DeepMind представила Gemini 2.5 Deep Think — новую мультиагентную модель ИИ

Google DeepMind представила Gemini 2.5 Deep Think, которая, по словам компании, является самой продвинутой моделью искусственного интеллекта, способной отвечать на вопросы, исследуя и рассматривая несколько идей одновременно, а затем используя полученные результаты для выбора наилучшего ответа.

С пятницы подписчики Google Ultra получат доступ к Gemini 2.5 Deep Think в приложении Gemini.

Gemini 2.5 Deep Think, впервые представленная в мае на конференции Google I/O 2025, является первой общедоступной мультиагентной моделью Google. Эти системы задействуют несколько ИИ-агентов для параллельного решения задачи. Этот процесс требует значительно больше вычислительных ресурсов, чем работа с одним агентом, но, как правило, даёт более качественные результаты.

Компания Google использовала модификацию Gemini 2.5 Deep Think, чтобы завоевать золотую медаль на Международной математической олимпиаде (IMO) в этом году.

Компания заявляет, что наряду с Gemini 2.5 Deep Think она предоставляет доступ к модели, которую использовала на Международной математической олимпиаде, избранной группе математиков и учёных. Компания надеется, что модель IMO поможет в исследованиях, и стремится получить отзывы о том, как улучшить мультиагентную систему для академического использования.

Модель Gemini 2.5 Deep Think значительно усовершенствована по сравнению с тем, что было представлено на конференции I/O. Компания также утверждает, что разработала «новые методы обучения с подкреплением», которые позволяют Gemini 2.5 Deep Think лучше использовать свои логические пути.

«Deep Think может помочь людям решать проблемы, требующие творческого подхода, стратегического планирования и поэтапного совершенствования», — говорится в сообщении Google в блоге, опубликованном на TechCrunch.

Компания заявляет, что Gemini 2.5 Deep Think демонстрирует высочайшую производительность на «Последнем экзамене человечества» (Humanity’s Last Exam, HLE) — сложном тесте, оценивающем способность ИИ отвечать на тысячи вопросов по математике, гуманитарным наукам и естественным наукам, собранных на краудсорсинговой платформе. Модель набрала 34,8% баллов на HLE (без использования инструментов), в то время как Grok 4 от xAI набрал 25,4%, а G3 от OpenAI — 20,3%.

Google также заявляет, что Gemini 2.5 Deep Think превосходит модели искусственного интеллекта от OpenAI, xAI и Anthropic в LiveCodeBench6 — сложном тесте на выполнение задач по программированию. Модель Google набрала 87,6%, в то время как Grok 4 набрал 79%, а o3 от OpenAI — 72%.

Результаты тестирования

Gemini 2.5 Deep Think автоматически работает с такими инструментами, как выполнение кода и поиск в Google. Компания утверждает, что эта система способна выдавать «гораздо более развёрнутые ответы», чем традиционные модели искусственного интеллекта.

В ходе тестирования Google модель выполняла более подробные и эстетически привлекательные задачи по веб-разработке по сравнению с другими моделями ИИ. Компания утверждает, что эта модель может помочь исследователям и «потенциально ускорить процесс открытий».

Художественные сцены, созданные искусственным интеллектом Google

По словам Google, в ближайшие недели компания планирует предоставить доступ к Gemini 2.5 Deep Think избранной группе тестировщиков через Gemini API. Компания заявляет, что хочет лучше понять, как разработчики и предприятия могут использовать её мультиагентную систему.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Перевод, источник новости здесь.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”