Гибридные модели ИИ от Deep Cogito: баланс между скоростью и рассуждением

Новая компания Deep Cogito появилась из ниоткуда с семейством общедоступных моделей ИИ, которые можно переключать между «рассуждающим» и «нерассуждающим» режимами.

Модели рассуждения, подобные o1 от OpenAI, показали большие перспективы в таких областях, как математика и физика, благодаря их способности эффективно проверять факты, шаг за шагом решая сложные задачи. 

Однако за такое рассуждение приходится расплачиваться более высокими вычислительными затратами и задержкой. Вот почему лаборатории, такие как Anthropic, разрабатывают «гибридные» архитектуры моделей, которые сочетают компоненты для рассуждений со стандартными, нерассуждающими элементами. Гибридные модели могут быстро отвечать на простые вопросы, затрачивая дополнительное время на рассмотрение более сложных запросов.

Все модели Deep Cogito, называемые Cogito 1, являются гибридными моделями. Компания Cogito утверждает, что они превосходят лучшие открытые модели того же размера, в том числе модели Meta* и китайского стартапа DeepSeek.

«Каждая модель может отвечать напрямую […] или проводить самоанализ перед ответом (как модели-рассуждения)», — пояснила компания в своём блоге. «Все модели были разработаны небольшой командой примерно за 75 дней».

Модели Cogito 1 имеют от 3 до 70 миллиардов параметров, и Cogito заявляет, что в ближайшие недели и месяцы к ним присоединятся модели с 671 миллиардом параметров. Количество параметров примерно соответствует навыкам модели в решении задач, и чем их больше, тем лучше.

Cogito 1 не разрабатывался с нуля. Deep Cogito создан на основе открытых моделей Meta Llama и Alibaba Qwen. Компания заявляет, что применила новые подходы к обучению, чтобы повысить производительность базовых моделей и обеспечить возможность переключения между вариантами рассуждений.

Согласно результатам внутреннего тестирования Cogito, самая большая модель Cogito 1, Cogito 70B, с функцией логического вывода превосходит модель логического вывода R1 от DeepSeek в нескольких математических и языковых тестах. Cogito 70B с отключённой функцией логического вывода также превосходит недавно выпущенную модель Llama 4 Scout от Meta в LiveBench — тесте ИИ общего назначения.

Каждую модель Cogito 1 можно скачать или использовать через API-интерфейсы облачных провайдеров Fireworks AI и Together AI.

Производительность Cogito 1 по сравнению с другими популярными общедоступными моделями ИИ.

«В настоящее время мы всё ещё находимся на ранних этапах нашего масштабирования, используя лишь малую часть вычислительных мощностей, которые обычно резервируются для традиционного обучения больших языковых моделей, — написала Cogito в своём блоге. — В дальнейшем мы изучаем дополнительные подходы к обучению для самосовершенствования».

Согласно документам, поданным в Калифорнийский департамент, компания Deep Cogito, базирующаяся в Сан-Франциско, была основана в июне 2024 года. На странице компании в LinkedIn указаны два соучредителя: Дришан Арора и Дхрув Малхотра. Малхотра ранее был менеджером по продуктам в лаборатории искусственного интеллекта Google DeepMind, где он работал над технологией генеративного поиска. Арора был старшим инженером-программистом в Google.

Deep Cogito, среди спонсоров которой есть South Park Commons, согласно PitchBook, амбициозно стремится создать «общий сверхразум». Основатели компании понимают под этим термином ИИ, который может выполнять задачи лучше, чем большинство людей, и «открывать совершенно новые возможности, которые мы даже не можем себе представить».

*Meta и её продукты (Instagram, Facebook) запрещены на территории Российской Федерации

Источник

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии