Вышла Kimi K2 Thinking – свежая open source-модель для сложных рассуждений и агентных задач

Она способна выполнять до 300 последовательных действий, строя цепочку логики, поиска и кода. Эта модель — очередной шаг в направлении масштабирования вычислений во время выполнения, благодаря увеличению как количества «токенов размышления», так и числа шагов при вызове инструментов.

Kimi K2 Thinking устанавливает новые рекорды на бенчмарках, оценивающих логическое мышление, кодинг и агентные способности.

Немного про бенчмарки:

K2 Thinking демонстрирует выдающиеся способности к логике и решению задач. На Humanity’s Last Exam (HLE) — строго разработанном бенчмарке с закрытыми вопросами экспертного уровня по более чем 100 предметам — модель достигла 44,9%, используя инструменты для поиска, Python и веб-браузер.

K2 Thinking показывает значительный прогресс в задачах кодинга и разработки ПО. Она достигает 61,1% на SWE-Multilingual, 71,3% на SWE-Bench Verified и 47,1% на Terminal-Bench, демонстрируя хорошую переносимость навыков между языками и структурами агентных систем.

K2 Thinking показывает высокие результаты в сценариях поиска и навигации. На BrowseComp — сложном бенчмарке, оценивающем способность моделей непрерывно искать, просматривать и рассуждать над труднодоступной реальной информацией из интернета — модель набрала 60,2%, значительно превысив человеческий базовый уровень 29,2%. Этот результат подчёркивает превосходство K2 Thinking в целенаправленных рассуждениях, основанных на веб-поиске, и её устойчивость в динамичных, насыщенных информацией средах.

Самый яркий пример из релиза — то, как модель создаёт сложные интерактивные приложения с нуля. Не уверены, насколько это показательные примеры для повседневной практики разработчиков, но выглядит хорошо. Видно, что качество генераций таких MVP на очень высоком уровне. А ниже пример результата генерации кода для популярной библиотеки визуализации.

Больше примеров генерации интерактивных приложений можно посмотреть в релизной статье.

Русскоязычное сообщество про AI в разработке

Друзья! Эту новость подготовила команда ТГК «AI for Devs» — канала, где мы рассказываем про AI-ассистентов, плагины для IDE, делимся практическими кейсами и свежими новостями из мира ИИ. Подписывайтесь, чтобы быть в курсе и ничего не упустить!

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”