Так уж сложилось, что лидерами на рынке ИИ-технологий в большинстве своём выступают крупные компании с внушительными бюджетами — просто потому, что для развития в этом сегменте нужно много денег, специалистов и вычислительных мощностей. Но изредка появляются и «тёмные лошадки» — например, недавно рейтинг независимого бенчмарка Artificial Analysis в категории Text to Video возглавила команда под названием HappyHorse с моделью HappyHorse-1.0. Стоит сказать, что это полностью анонимная команда — никто не знает кто стоит за этим брендом, в сети не было крупных анонсов, а на GitHub и HuggingFace нет никакой конкретной информации о разработчике. Подписывайтесь на Telegram-канал про технологии Изображение: Artificial Analysis
Но отсутствие крупного имени за спиной не помешало разработчикам модели существенно опередить лучших конкурентов в этом сегменте. Например, модель HappyHorse-1.0 в данном рейтинге набрала 1357 баллов по системе ELO, тогда как Seedance 2.0 от компании ByteDance Seed, одна из лучших генеративных моделей на рынке, на текущий момент оценивается в 1273 балла. Отрыв по баллам действительно существенный — если взглянуть на рейтинг, можно заметить, что разница между конкурентами обычно составляет 10-20 баллов, не более. Это говорит о том, что новинка существенно лучше справляется с поставленными задачами. «Разница в 60 пунктов [в рейтинге ELO] означает, что одна модель выигрывает примерно в 58-59% прямых сравнений. Разница в 5 пунктов — просто шум», — объясняет журналист информационного издания WAVESPEED.
При этом на официальном сайте HappyHorse указано, что новая модель способна генерировать видео на семи поддерживаемых языках — мандаринском и кантонском (это уже указывает на то, что модель, скорее всего, разработана китайской компанией), английском, японском, корейском, немецком и французском. «Под капотом» модель на 15 миллиардов параметров, которая способна сгенерировать видео продолжительностью 5 секунд в разрешении 256p всего за 2 секунды на графическом ускорителе NVIDIA H100. А вот для генерации 5-секундного ролика в разрешении Full HD нужно уже 38 секунд. Изображение: HappyHorse
Проблема модели HappyHorse-1.0 лишь в том, что она пока что недоступна публике за пределами бенчмарка Artificial Analysis — «прикрутить» модель к своему сервису пока что не выйдет, как и проверить её за пределами эталонных инструкций в рамках слепого сравнения. Более того, пока что разработчики не готовы предоставить данные о стоимости работы данной модели, что очень важно в современных реалиях. Но, вероятно, это лишь дело времени — рано или поздно столь качественную генеративную модель в любом случае отправят в свободный доступ.
Источник: trashbox.ru