Вышла новая китайская модель LongCat-Flash-Thinking

Китайская компания Meituan представила новую модель искусственного интеллекта LongCat-Flash-Thinking, которая демонстрирует SOTA-результаты среди открытых решений в области reasoning. Эта модель предназначена для сложных задач рассуждений и кода, сочетая передовые архитектурные решения и оптимизации для продакшена.

Модель построена на MoE-архитектуре и насчитывает 560 миллиардов параметров, из которых активируются около 27 миллиардов. Эффективность LongCat-Flash-Thinking впечатляет: для достижения топ-результатов на тесте AIME25 модель требует на 64,5% меньше токенов, чем другие открытые решения того же класса. Контекст достигает 128 тысяч токенов, а обучение сочетает усиление на задачах рассуждений и кода с многоэтапным пост-тюнингом и мультиагентным синтезом.

Инфраструктурные оптимизации модели включают асинхронное RL, что даёт трёхкратное ускорение по сравнению с синхронными фреймворками. Для продакшена реализованы свои оптимизированные ядра для MoE, специальные приёмы распределённого обучения, KV-cache reduction, chunked prefill, статическая и эластичная маршрутизация, peer-to-peer cache transfer, heavy-hitter replication и PD-disaggregation. Модель полностью совместима с SGLang и vLLM, что обеспечивает быстрый и эффективный деплой.

По результатам тестов, LongCat-Flash-Thinking лидирует в использовании инструментов (τ²-Bench, VitaBench) и показывает высокие результаты по instruction following (IFEval, COLLIE, Meeseeks-zh).

Модель уже доступна на Hugging Face.

Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш Telegram‑канал BotHub AI News.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии