Deep Cogito выходит из тени с гибридными ИИ-моделями «рассуждений»

Новая компания Deep Cogito вышла из тени с семейством открытых ИИ-моделей, которые могут переключаться между режимами «рассуждения» и «без рассуждения».

Модели рассуждений, такие как O1 от OpenAI, продемонстрировали перспективы в математике и физике благодаря своей способности эффективно проверять факты и пошагово решать сложные задачи. Однако рассуждения требуют значительных вычислительных ресурсов и могут вызывать задержки. Поэтому такие лаборатории, как Anthropic, разрабатывают «гибридные» архитектуры, которые сочетают элементы рассуждения с обычными, не рассуждающими компонентами. Гибридные модели могут быстро отвечать на простые вопросы, уделяя больше времени более сложным запросам.

Дисклеймер: это вольный перевод статьи, которую написал Кайл Виггерс для TechCrunch. Перевод подготовила редакция «Технократии». Чтобы не пропустить анонс новых материалов подпишитесь на «Голос Технократии» — мы регулярно рассказываем о новостях про AI, LLM и RAG, а также делимся полезными мастридами и актуальными событиями.

Все модели Deep Cogito, называемые Cogito 1, являются гибридными. Компания утверждает, что они превосходят лучшие открытые модели того же размера, включая решения от Meta и китайского стартапа DeepSeek.

«Каждая модель может отвечать напрямую … или самостоятельно рассуждать перед ответом (как модели рассуждений)», — пояснила компания в блоге. «Все они были разработаны небольшой командой примерно за 75 дней».

Модели Cogito 1 варьируются от 3 миллиардов до 70 миллиардов параметров, и компания заявляет, что в ближайшие недели и месяцы появятся модели с параметрами до 671 миллиарда. Количество параметров напрямую связано с эффективностью модели: больше параметров — лучшее решение задач.

Важно отметить, что Cogito 1 не была создана с нуля. Deep Cogito использовала открытые модели Llama от Meta и Qwen от Alibaba для разработки своих решений. Компания заявляет о применении новых методов обучения для повышения производительности базовых моделей и возможности переключаться между режимами размышлений.

Согласно результатам внутренних тестов Cogito, крупнейшая модель Cogito 1, Cogito 70B, в режиме рассуждения превосходит модель R1 от DeepSeek в нескольких математических и языковых тестах. В режиме «без рассуждения» Cogito 70B также обходит недавно выпущенную модель Llama 4 Scout от Meta в универсальном тесте ИИ LiveBench.

Все модели Cogito 1 доступны для загрузки или использования через API на облачных платформах Fireworks AI и Together AI.

«На данный момент мы всё ещё находимся на ранней стадии масштабирования, использовав лишь небольшую часть вычислительных мощностей, которые обычно резервируются для традиционного постобучения крупных языковых моделей», — написала компания в своём блоге. «В будущем мы будем исследовать дополнительные подходы к постобучению для самосовершенствования».

Согласно данным, поданным в государственные органы Калифорнии, компания Deep Cogito была основана в июне 2024 года в Сан-Франциско. На странице компании в LinkedIn указаны два сооснователя — Дришан Арора и Дхрув Малхотра. Малхотра ранее работал менеджером по продуктам в Google AI DeepMind, занимаясь разработкой генеративных поисковых технологий, а Арора был старшим инженером-программистом в Google.

Deep Cogito, поддерживаемая South Park Commons, как утверждает PitchBook, ставит перед собой амбициозную задачу создания «общего сверхинтеллекта». Основатели компании понимают эту фразу как ИИ, способный выполнять задачи лучше большинства людей и «открывать совершенно новые возможности, которые мы еще не могли себе представить».

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии