После выпуска DeepSeek-R1 в Китае появилась ещё одна модель логического мышления. Новая мультимодальная модель Kimi k1.5 от Moonshot AI показывает впечатляющие результаты в сравнении с признанными моделями AI в сложных задачах логического мышления.
Компания Moonshot AI разработала две версии Kimi k1.5 — одну для подробных рассуждений (long-CoT), а другую для кратких ответов (short-CoT). Согласно техническому отчёту компании, обе версии соответствуют или превосходят по производительности ведущие модели, такие как o1 и DeepSeek-R1 от OpenAI. Версия long-CoT шаг за шагом описывает ход своих мыслей, а версия short-CoT стремится к краткости. В нескольких тестах он показал такие же или более высокие результаты, чем GPT-4o и Claude 3.5 Sonnet.
Kimi k1.5 long-CoT превосходит даже OpenAI o1 в некоторых тестах. Kimi k1.5 short-CoT превосходит такие модели, как Claude 3.5 Sonnet, в некоторых тестах.
В отличие от DeepSeek-R1, Kimi k1.5 может обрабатывать как текст, так и изображения, что позволяет ему делать выводы на основе различных типов входных данных. Модель особенно хорошо справляется с мультимодальными тестами, такими как MathVista и MMMU. Однако, как и в случае со всеми AI-моделями, реальная производительность может отличаться от результатов тестов.
Однако, как и всегда, ещё предстоит выяснить, насколько эта модель полезна на практике за пределами контрольных показателей.
Разработка началась с предварительного обучения модели на обширных текстовых и графических данных для создания базового понимания языка и изображений. Затем команда произвела тонкую настройку, используя тщательно отобранные небольшие наборы данных. Для задач с ясными ответами, как в математике, они применяли метод «отсеивающей выборки», оставляя только правильные ответы. Также были созданы обучающие материалы с подробными пошаговыми объяснениями.
На заключительном этапе использовалось обучение с подкреплением с фокусом на конечный результат, что дало модели больше свободы в поиске решений. Чтобы сделать ответы эффективными, вводился штраф за излишнюю длину.
Этот метод отличается от моделей R-1 и R-1-Zero компании DeepSeek. R-1 использует базовое обучение с подкреплением и обратной связью, а R-1-Zero — минималистичный подход без дополнительных данных.
Для повышения эффективности рассуждений команда нашла способы передавать знания моделям, генерирующим более короткие ответы, комбинируя модели и используя метод «кратчайшей выборки с отклонением». Они также выяснили, что увеличение длины контекста до 128 тысяч токенов улучшает производительность без необходимости сложных компонентов, таких как поиск по дереву Монте-Карло.
Moonshot AI, основанная в 2023 году, быстро выросла, получив более 1 миллиарда долларов инвестиций от Alibaba к февралю 2024 года и оценку в 2,5 миллиарда долларов. К августу оценка достигла 3,3 миллиарда долларов благодаря инвестициям от Tencent и Gaorong Capital. Хотя Kimi k1.5 планируется как конкурент ChatGPT, компания пока не сделала модель доступной для широкой публики.
Источник
Источник: habr.com