Аналитический центр red_mad_robot рассказывает и комментирует главные новости индустрии за неделю с 12 по 18 января.
Улучшения в архитектуре DeepSeek
DeepSeek представила mHC (Manifold-Constrained Hyper-Connections) — архитектурное улучшение трансформера, которое позволяет масштабировать модели, сохраняя стабильность внутреннего обмена информацией.
Residual-соединения — это базовый элемент трансформеров, при котором вход слоя добавляется к его выходу, обеспечивая стабильное прохождение сигнала через глубокую сеть. В 2024 году ByteDance предложила расширение — Hyper-Connections, где остаточная информация передается по нескольким параллельным путям. Это позволяет потокам обмениваться информацией и дает умеренный прирост качества, но приводит к неконтролируемому усилению сигнала и росту вычислительных затрат.
Подход DeepSeek заключается во введении строгих математических ограничений пространства residual-соединений, которые сохраняют баланс и устойчивость архитектуры без потери сложности.
Почему это важно: mHC обеспечивает более насыщенный обмен внутренними данными при сохранении стабильности обучения и контролируемых затрат.По неофициальной информации, архитектура используется при обучении новой модели DeepSeek V4, релиз которой ожидается в феврале-марте.
Анонсирован фреймворк для AI-агентов
Meta Superintelligence Labs (запрещена в РФ) показала Dr. Zero: фреймворк, в котором AI-агенты способны саморазвиваться без использования обучающих датасетов, демонстраций и разметки со стороны человека.
Источник: hi-tech.mail.ru