Глава Xiaomi Лэй Цзюнь представил систему, которая обучалась на 200 миллионах роботизированных движений.
Компания Xiaomi открыла всем желающим доступ к программному комплексу, который помогает машинам понимать команды на естественном языке и выполнять физические действия в реальном мире. Разработчики получили код, математические веса модели и могут адаптировать технологию под любое оборудование — от манипуляторов до гуманоидов.
Секрет новинки спрятан в раздельной архитектуре: визуально-языковая часть на базе Qwen3 анализирует картинку с камер и текстовую команду, а блок DiT с трансформером генерирует последовательность действий через алгоритм flow matching. Общий объем — 4.7 миллиарда параметров. Такое разделение труда устранило главную беду железных помощников: паузу между «подумал» и «сделал». Обычно автомат сначала обрабатывает сенсоры, планирует траекторию, и только потом начинает двигаться. Xiaomi применила Lambda-маску внимания — механизм, при котором система уже строит план следующего шага, пока завершает текущий. Асинхронный режим запускает расчет новой порции команд параллельно с исполнением предыдущих, поэтому манипулятор не замирает ни на миллисекунду.
В симуляторе LIBERO точность достигла 98.7% это рекордкость среди VLA-моделей. На практике железный ассистент справляется с задачами, где нужна ловкость рук: разбирает конструкции из двух десятков кубиков, встряхивает ткань, чтобы найти спрятанный угол, и возвращает лишнее полотенце, если взял больше нужного. Обучили новинку на 200 миллионах временны́х шагов траекторий — сюда вошли публичные датасеты и 738 часов собственных записей телеоперирования (338 часов на Lego, 400 на текстиле). Добавили 80 миллионов пар изображение-текст, чтобы сохранить способность «видеть» объекты и не забыть общие знания о мире.
Источник: hi-tech.mail.ru