Компания Xiaomi представила первую свою фирменную модель искусственного интеллекта класса vision-language-action (VLA) под названием Xiaomi-Robotics-0. Эта нейросеть с открытым исходным кодом насчитывает 4,7 миллиарда параметров и объединяет компьютерное зрение с управлением физическими действиями роботизированной техники. В основе системы лежит архитектура Mixture-of-Transformers (MoT). Она делит вычислительные задачи между двумя специализированными блоками нейросети для достижения баланса между пониманием контекста и точностью движений. Интеллектуальную основу составляет визуально-языковой модуль (VLM), который анализирует изображения высокого разрешения, интерпретирует инструкции, выстраивает логические цепочки и пространственное восприятие.
За моторику отвечает второй блок — Action Expert на базе многослойного диффузионного трансформера (DiT). Этот элемент генерирует не одиночные команды, а сглаженные последовательности движений Action Chunk с использованием методов flow-matching. Чтобы нейросеть не терялa интеллектуальные способности при обучении физике, инженеры использовали совместную тренировку на мультимодальных данных и массивах действий. По заявлению компании, нейросеть установила рекордные показатели как в симуляциях, так и в тестах на реальных роботехнических устройствах.
Источник: mobile-review.com