Самообучение AI-систем меняется. Нейроновости недели

Аналитический центр red_mad_robot рассказывает и комментирует главные новости индустрии за неделю с 12 по 18 января.

Улучшения в архитектуре DeepSeek

DeepSeek представила mHC (Manifold-Constrained Hyper-Connections) — архитектурное улучшение трансформера, которое позволяет масштабировать модели, сохраняя стабильность внутреннего обмена информацией.

Residual-соединения — это базовый элемент трансформеров, при котором вход слоя добавляется к его выходу, обеспечивая стабильное прохождение сигнала через глубокую сеть. В 2024 году ByteDance предложила расширение — Hyper-Connections, где остаточная информация передается по нескольким параллельным путям. Это позволяет потокам обмениваться информацией и дает умеренный прирост качества, но приводит к неконтролируемому усилению сигнала и росту вычислительных затрат.

Подход DeepSeek заключается во введении строгих математических ограничений пространства residual-соединений, которые сохраняют баланс и устойчивость архитектуры без потери сложности.

Почему это важно: mHC обеспечивает более насыщенный обмен внутренними данными при сохранении стабильности обучения и контролируемых затрат.По неофициальной информации, архитектура используется при обучении новой модели DeepSeek V4, релиз которой ожидается в феврале-марте.

Анонсирован фреймворк для AI-агентов

Meta Superintelligence Labs (запрещена в РФ) показала Dr. Zero: фреймворк, в котором AI-агенты способны саморазвиваться без использования обучающих датасетов, демонстраций и разметки со стороны человека.

Источник: hi-tech.mail.ru

0 0 голоса

Рейтинг новости