Команда Meituan представила LongCat-Flash-Omni — открытую модель нового поколения, которая умеет вести диалог в реальном времени, видеть собеседника, понимать речь и отвечать голосом. Это мультимодальная система с 560 миллиардами параметров, из которых активно задействовано 27 миллиардов, что позволяет сохранять качество при оптимальных вычислительных затратах.
Главная особенность модели в том, что она не просто распознаёт команды, а поддерживает естественный разговор, реагируя на изменения в интонации и выражении лица. У модели контекст до 128 тысяч токенов, что даёт возможность вести продолжительные беседы, анализировать большие фрагменты данных и сохранять осмысленность ответов.
LongCat-Flash-Omni построена на продвинутой архитектуре Mixture of Experts, что обеспечивает высокое качество при умеренных ресурсах. При тестах она заняла лидирующие позиции на OmniBench и DailyOmni, а также показала сильные результаты на задачах ASR, DocVQA и RefCOCO. По совокупности показателей модель превосходит Qwen3-Omni Instruct и вплотную приближается к уровню Gemini 2.5 Flash.
Отдельное внимание заслуживает открытость проекта. В отличие от коммерческих аналогов, LongCat-Flash-Omni полностью доступна для локального запуска.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Источник: habr.com