Вышла Kimi K2 Thinking – свежая open source-модель для сложных рассуждений и агентных задач

Она способна выполнять до 300 последовательных действий, строя цепочку логики, поиска и кода. Эта модель — очередной шаг в направлении масштабирования вычислений во время выполнения, благодаря увеличению как количества «токенов размышления», так и числа шагов при вызове инструментов.

Kimi K2 Thinking устанавливает новые рекорды на бенчмарках, оценивающих логическое мышление, кодинг и агентные способности.

Немного про бенчмарки:

K2 Thinking демонстрирует выдающиеся способности к логике и решению задач. На Humanity’s Last Exam (HLE) — строго разработанном бенчмарке с закрытыми вопросами экспертного уровня по более чем 100 предметам — модель достигла 44,9%, используя инструменты для поиска, Python и веб-браузер.

K2 Thinking показывает значительный прогресс в задачах кодинга и разработки ПО. Она достигает 61,1% на SWE-Multilingual, 71,3% на SWE-Bench Verified и 47,1% на Terminal-Bench, демонстрируя хорошую переносимость навыков между языками и структурами агентных систем.

K2 Thinking показывает высокие результаты в сценариях поиска и навигации. На BrowseComp — сложном бенчмарке, оценивающем способность моделей непрерывно искать, просматривать и рассуждать над труднодоступной реальной информацией из интернета — модель набрала 60,2%, значительно превысив человеческий базовый уровень 29,2%. Этот результат подчёркивает превосходство K2 Thinking в целенаправленных рассуждениях, основанных на веб-поиске, и её устойчивость в динамичных, насыщенных информацией средах.

Самый яркий пример из релиза — то, как модель создаёт сложные интерактивные приложения с нуля. Не уверены, насколько это показательные примеры для повседневной практики разработчиков, но выглядит хорошо. Видно, что качество генераций таких MVP на очень высоком уровне. А ниже пример результата генерации кода для популярной библиотеки визуализации.

Больше примеров генерации интерактивных приложений можно посмотреть в релизной статье.

Русскоязычное сообщество про AI в разработке

Друзья! Эту новость подготовила команда ТГК «AI for Devs» — канала, где мы рассказываем про AI-ассистентов, плагины для IDE, делимся практическими кейсами и свежими новостями из мира ИИ. Подписывайтесь, чтобы быть в курсе и ничего не упустить!

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии