Компания Moonshot AI из Китая выпустила Kimi-K2 — новую большую языковую модель с открытым исходным кодом, которая призвана составить конкуренцию ведущим проприетарным моделям, таким как Claude Sonnet 4 и GPT-4.1, без специального модуля логического вывода. Это событие напоминает выпуск Deepseek.
Компания Moonshot AI, основанная в 2023 году, создала Kimi-K2 — модель, объединяющую опыт экспертов, с огромным количеством параметров — один триллион, из которых активируются 32 миллиарда при выводе данных. Открытые весовые коэффициенты делают модель доступной для исследований, тонкой настройки и индивидуального применения.
Согласно стандартным тестам больших языковых моделей, Kimi-K2-Instruct — версия, оптимизированная для использования в реальных условиях, — находится в одной лиге с ведущими закрытыми моделями. На SWE-bench Verified она набрала 65,8% в режиме агента, уступив Claude Sonnet 4 и значительно опередив GPT-4.1 (54,6%). Этот тест проверяет, может ли модель выявлять и исправлять реальные ошибки в коде проектов с открытым исходным кодом.
Kimi-K2 также лидирует в LiveCodeBench (53,7%) и OJBench (27,1%) без модуля логического вывода. Эти тесты показывают, насколько хорошо языковые модели справляются с задачами программирования: LiveCodeBench — в интерактивном режиме, OJBench — в виде традиционных конкурсных заданий.
Kimi-K2 не уступает лучшим проприетарным моделям в стандартных тестах ИИ
Kimi-K2 также выделяется в задачах по математике и естественным наукам. В таких тестах, как AIME, GPQA-Diamond и MATH-500, он превосходит своих конкурентов. Он также входит в число лучших моделей в многоязычных тестах, таких как MMLU-Pro. Moonshot AI демонстрирует возможности Kimi-K2 в программировании на X.
В неофициальном тесте Саймона Уиллисона Kimi-K2 успешно сгенерировал SVG-изображение пеликана на велосипеде — задача, с которой часто не справляются другие модели, способные создавать только абстрактные фигуры.
Kimi-K2 может генерировать детализированные SVG-изображения, проходя тест, который ставит в тупик многие конкурирующие модели Создан для агентированных рабочих процессов
Moonshot AI утверждает, что Kimi-K2 предназначен специально для агентных приложений. Модель может выполнять команды, вызывать внешние инструменты, генерировать и отлаживать код, а также самостоятельно решать сложные многоэтапные задачи.
В ходе одной из демонстраций Kimi-K2 проанализировал данные о зарплатах на удалённых работах, провёл статистическую оценку и создал интерактивную HTML-страницу с настраиваемым инструментом рекомендаций — и всё это в рамках одного агентского процесса.
Kimi-K2 выполняет сложные задачи — от первоначальной идеи до готового веб-сайта — с помощью встроенных инструментов
Если говорить о возможностях агентов, то Kimi-K2 выделяется тем, что, в отличие от типичных моделей рассуждений, она была специально обучена для работы в агентских средах и использования инструментов с помощью обучения с подкреплением. Согласно одному из анализов, модель, скорее всего, не проходила явного обучения математическим задачам или задачам по программированию с использованием обширных цепочек рассуждений. Это говорит о том, что для практического применения агентов важнее сосредоточиться на использовании инструментов и организации рабочих процессов, чем на традиционных подходах к «рассуждениям».
Всё же есть некоторые ограничения. По данным Moonshot AI, очень сложные задачи или неясные требования к инструментам иногда приводят к тому, что результаты получаются слишком объёмными или неполными. Модель также лучше работает в рамках непрерывных сессий с использованием агентов, чем при разовых запросах.
Модель Kimi-K2 была обучена на 15,5 триллионах токенов с использованием нового алгоритма обучения под названием MuonClip, который обеспечивает стабильность за счёт регулярного масштабирования ключевых компонентов внимания. Moonshot AI сообщает, что процесс был стабильным на протяжении всего обучения, что не является само собой разумеющимся при таких масштабах.
Гибкое развёртывание, но высокие требования
Kimi-K2 доступен в двух версиях: Kimi-K2-Base для исследований и индивидуальной тонкой настройки и Kimi-K2-Instruct для общих задач в чате и с агентами. Доступ к обеим моделям можно получить через API, совместимый с OpenAI, на платформе Moonshot AI. Цены дифференцированные: 0,15 доллара за миллион входных токенов при попадании в кэш, 0,60 доллара при промахе в кэше и 2,50 доллара за миллион выходных токенов.
Вы также можете запустить Kimi-K2 локально, используя механизмы логического вывода, такие как vLLM, SGLang, KTransformers или TensorRT-LLM. Инструкции по настройке доступны в официальном репозитории GitHub.
Лицензия основана на MIT с одним дополнительным требованием: если вы используете Kimi-K2 в продукте с более чем 100 миллионами активных пользователей в месяц или с ежемесячным доходом более 20 миллионов долларов, название «Kimi K2» должно быть чётко видно в пользовательском интерфейсе. Для большинства компаний это не будет проблемой.
Локальное или масштабное использование Kimi-K2 требует больших вычислительных мощностей. Модель с триллионом параметров и 32 миллиардами активируемых параметров на один вывод требует мощных графических процессоров для производственного использования или локального хостинга, скорее всего, нескольких графических процессоров NVIDIA B200 или многоузловой системы на архитектуре Nvidia Hopper. По словам разработчика MLX от Apple Авни Ханнуна, 4-битная квантованная версия может работать на двух компьютерах Apple M3 Ultra с 512 ГБ оперативной памяти каждый.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Перевод, источник новости здесь.
Источник: habr.com