Kimi представили новую модель — Kimi-Linear-48B-A3B-Base

Команда Moonshot AI показала очередной серьёзный шаг в сторону эффективных больших моделей. Новая архитектура объединяет два подхода (Gated DeltaNet и MLA-компрессию), создавая гибрид под названием KDA (Kimi Delta Attention). Это решение помогает модели лучше работать с длинным контекстом, сохраняя высокое качество рассуждений и при этом не раздувая вычислительные затраты.

Главная идея KDA — не пересчитывать всё внимание на каждом токене, а фокусироваться только на изменениях. Это даёт значительный прирост скорости и экономию памяти. Внутри архитектуры внимание распределено в пропорции примерно 3:1. Три части KDA и одна часть MLA. Такой баланс позволяет модели поддерживать стабильность и точность на уровне крупных LLM, но с гораздо меньшими требованиями к ресурсам.

В результате Kimi-Linear-48B требует до 75% меньше памяти на KV-кэш и обеспечивает ускорение декодирования до 6,3 раз на длинных контекстах. При этом она не теряет в качестве, наоборот, на задачах рассуждения и генерации длинных цепочек показывает лучшие результаты, чем MLA и GDN-H.

Модель демонстрирует устойчивость к распаду длинных зависимостей, умеет решать, что стоит забыть, а что запомнить, и сохраняет целостность рассуждений даже при экстремально больших контекстах. Это делает её особенно подходящей для долгих диалогов, сложных цепочек reasoning и RL-задач.

Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш Telegram‑канал BotHub AI News.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии