Думающая Kimi K2 обошла GPT-5 в Последнем экзамене человечества

Moonshot AI представила Kimi K2 — новую reasoning-модель с открытым кодом, которая показывает выдающиеся способности к рассуждению и агентному поведению. Главное отличие K2 в том, что она может не просто отвечать на вопросы, а планировать действия и выполнять их цепочкой ш��гов без вмешательства человека.

Версия Kimi K2 Thinking решает задачи с помощью 200–300 последовательных инструментальных вызовов, анализируя каждый этап и корректируя стратегию на лету. Благодаря расширенному контексту в 256 тысяч токенов модель может удерживать и осмыслять большие фрагменты информации, что особенно важно для агентных сценариев и многоходовых вычислений.

В бенчмарках, измеряющих способность моделей действовать как рассуждающие агенты, Kimi K2 установила новые рекорды. Она показала лучший результат в Humanity’s Last Exam — тесте, считающемся одним из самых трудных испытаний для современных ИИ, где нужно проявить не только логику, но и способность к обобщению и планированию.

Moonshot AI отмечает, что Kimi K2 станет основой для создания полностью автономных ИИ-систем, способных самостоятельно исследовать задачи, выстраивать гипотезы и использовать внешние инструменты. Модель уже доступна на сайте и через API, а полноценный агентный режим разработчики обещают включить в ближайшее время.

Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш Telegram‑канал BotHub AI News.

Источник

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”