Китайский конкурент OpenAI o1 Kimi k1.5 теперь доступен бесплатно в веб-версии

Последняя модель рассуждений Moonshot AI, Kimi k1.5, теперь доступна всем через Kimi.ai. Модель теперь работает и на английском языке, хотя компания заявляет, что она все еще дорабатывает языковую поддержку. Согласно недавнему заявлению Moonshot AI, пользователи могут получить доступ к полному набору функций k1.5 без каких-либо ограничений использования.

Система может осуществлять поиск в интернете в режиме реального времени на более чем 100 веб-сайтах, обрабатывать до 50 файлов одновременно и поставляется с улучшенными возможностями рассуждения и понимания изображений. Хотя услуга бесплатна, для начала работы вам потребуется зарегистрироваться, указав китайский или американский номер телефона, хотя вскоре появится возможность входа через Google.

После выпуска DeepSeek-R1 из Китая появилась еще одна модель рассуждений. Новая мультимодальная модель Kimi k1.5 от Moonshot AI демонстрирует впечатляющие результаты по сравнению с известными моделями AI в сложных задачах рассуждений.

Moonshot AI разработала две версии Kimi k1.5 — одну для детального рассуждения (long- CoT ) и другую для кратких ответов (short-CoT). Согласно техническому отчету компании, обе версии соответствуют или превосходят производительность ведущих моделей, таких как OpenAI o1 и DeepSeek-R1. Версия long-CoT шаг за шагом проходит через свое мышление, в то время как версия short-CoT нацелена на краткость. В нескольких тестах она работает так же хорошо или лучше, чем GPT-4o и Claude 3.5 Sonnet.

Kimi k1.5 long-CoT превосходит даже OpenAI o1 в некоторых тестах. Kimi k1.5 short-CoT превосходит такие модели, как Claude’s 3.5 Sonnet, в некоторых тестах. 

В отличие от DeepSeek-R1 , Kimi k1.5 может обрабатывать как текст, так и изображения, что позволяет ей делать выводы по разным типам входных данных. Модель показывает особенно хорошие результаты в мультимодальных тестах, таких как MathVista и MMMU. Однако, как и в случае со всеми моделями AI, реальная производительность может отличаться от результатов тестов.

Однако, как всегда, еще предстоит выяснить, насколько полезна эта модель на практике, помимо контрольных показателей. Процесс разработки начался со стандартного предварительного обучения на массивном наборе данных текста и изображений для построения базового языка и визуального понимания. Затем команда доработала модель на тщательно отобранном меньшем наборе данных (SFT). Для задач с четкими правильными или неправильными ответами, например, математических задач, они использовали «выборку отбраковки» — генерирование нескольких ответов и сохранение только правильных для обучения. Они также создали дополнительные данные обучения, демонстрирующие подробное пошаговое обоснование.

На заключительном этапе использовалось обучение с подкреплением, но с ключевым отличием от типичных подходов. Вместо использования функций ценности для оценки промежуточных шагов команда сосредоточилась на конечном результате. Они утверждают, что это дает модели больше свободы для исследования различных путей к правильному ответу. Чтобы ответы оставались эффективными, они добавили штраф за слишком длинные ответы.

Этот подход существенно отличается от моделей DeepSeek R-1 и R-1-Zero. В то время как R-1 использует более простой процесс обучения с подкреплением с обратной связью на основе правил, R-1-Zero использует еще более минимальный подход, обучаясь исключительно с подкреплением и без дополнительных данных.

Поскольку подробное рассуждение (long-CoT) дает хорошие результаты, но требует больше вычислительной мощности, команда разработала способы переноса этих знаний в модели, которые дают более короткие ответы. Они объединили несколько методов, включая слияние моделей и «Shortest Rejection Sampling», которая выбирает наиболее краткий правильный ответ из нескольких попыток.

Команда также обнаружила, что увеличение длины контекста (до 128 тыс. токенов) последовательно повышает производительность, позволяя проводить более сложные рассуждения. Их исследование также показало, что эффективным моделям рассуждений не нужны сложные компоненты, такие как поиск по дереву Монте-Карло — аналогично тому, что обнаружили разработчики DeepSeek-R1.

Их успех в переносе знаний из более длинных моделей в более короткие отражает более широкую тенденцию отрасли. Anthropic, вероятно, использовала похожие методы дистилляции знаний для своего меньшего, но мощного последнего Claude 3.5 Sonnet.

Быстрый рост Moonshot AI отражает амбиции модели. Основанная в 2023 году, компания получила более 1 миллиарда долларов финансирования от Alibaba в феврале 2024 года, достигнув оценки в 2,5 миллиарда долларов. К августу эта стоимость выросла до 3,3 миллиарда долларов после дополнительных инвестиций от Tencent и Gaorong Capital. Хотя Kimi k1.5 будет использоваться в качестве конкурента компании ChatGPT , Moonshot AI пока не сделала свои модели общедоступными.

Источник

Источник: habr.com

0 0 голоса
Рейтинг новости
639
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии