Она способна выполнять до 300 последовательных действий, строя цепочку логики, поиска и кода. Эта модель — очередной шаг в направлении масштабирования вычислений во время выполнения, благодаря увеличению как количества «токенов размышления», так и числа шагов при вызове инструментов.
Kimi K2 Thinking устанавливает новые рекорды на бенчмарках, оценивающих логическое мышление, кодинг и агентные способности.
Немного про бенчмарки:
K2 Thinking демонстрирует выдающиеся способности к логике и решению задач. На Humanity’s Last Exam (HLE) — строго разработанном бенчмарке с закрытыми вопросами экспертного уровня по более чем 100 предметам — модель достигла 44,9%, используя инструменты для поиска, Python и веб-браузер.
K2 Thinking показывает значительный прогресс в задачах кодинга и разработки ПО. Она достигает 61,1% на SWE-Multilingual, 71,3% на SWE-Bench Verified и 47,1% на Terminal-Bench, демонстрируя хорошую переносимость навыков между языками и структурами агентных систем.
K2 Thinking показывает высокие результаты в сценариях поиска и навигации. На BrowseComp — сложном бенчмарке, оценивающем способность моделей непрерывно искать, просматривать и рассуждать над труднодоступной реальной информацией из интернета — модель набрала 60,2%, значительно превысив человеческий базовый уровень 29,2%. Этот результат подчёркивает превосходство K2 Thinking в целенаправленных рассуждениях, основанных на веб-поиске, и её устойчивость в динамичных, насыщенных информацией средах.
Самый яркий пример из релиза — то, как модель создаёт сложные интерактивные приложения с нуля. Не уверены, насколько это показательные примеры для повседневной практики разработчиков, но выглядит хорошо. Видно, что качество генераций таких MVP на очень высоком уровне. А ниже пример результата генерации кода для популярной библиотеки визуализации.
Больше примеров генерации интерактивных приложений можно посмотреть в релизной статье.
Русскоязычное сообщество про AI в разработке
Друзья! Эту новость подготовила команда ТГК «AI for Devs» — канала, где мы рассказываем про AI-ассистентов, плагины для IDE, делимся практическими кейсами и свежими новостями из мира ИИ. Подписывайтесь, чтобы быть в курсе и ничего не упустить!
Источник: habr.com