Исследователи Microsoft разработали модель, которую они называют «Large Action Model» (LAM) — искусственный интеллект, способный самостоятельно управлять программами Windows. Это означает переход от AI, которые просто говорят о своих возможностях, к AI, которые действительно могут их реализовывать.
В отличие от традиционных языковых моделей, таких как GPT-4o, которые в основном обрабатывают и генерируют текст, LAM может преобразовывать запросы пользователей в реальные действия — будь то управление программным обеспечением или контроль над роботами. Хотя концепция не является абсолютно новой, это первая модель, специально обученная для работы с продуктами Microsoft Office.
Разница между LLM и LAM становится очевидной, когда вы смотрите на что-то вроде онлайн-шопинга. В то время как обычные LLM могут рассказать вам, как делать покупки онлайн, LAM на самом деле могут перемещаться по интерфейсу и совершать покупки самостоятельно
LAM может понимать пожелания пользователей из различных типов входных данных — текста, голоса или изображений — и превращать эти запросы в подробные пошаговые планы. Более того, она способна корректировать свой подход на основе происходящего в реальном времени.
Создание LAM включает четыре основных этапа. Сначала модель учится разбивать задачи на логические шаги. Затем она учится у более продвинутого AI, такого как GPT-4o, превращать эти планы в действия. После этого модель самостоятельно ищет новые решения, даже справляясь с проблемами, которые ставили в тупик другие AI-системы. Наконец, систему дорабатывают посредством обучения на основе вознаграждений.
Четырехфазный конвейер обучения LAM объединяет предварительное обучение по плану задач, экспертное обучение, самоподкрепляющееся исследование и оптимизацию на основе модели вознаграждения.
В качестве тестового примера они создали LAM на основе модели Mistral-7B и запустили её в тестовой среде Word. Она успешно выполнила задачи в 71% случаев, что значительно превзошло показатель GPT-4o в 63% (без визуальной информации).
LAM также была гораздо быстрее, требуя всего 30 секунд на задачу по сравнению с 86 секундами у GPT-4o. Однако, когда GPT-4o получала визуальную информацию, её точность была выше — 75,5%.
Команда начала с 29 000 пар «задача-план», собранных из документации, статей wikiHow и запросов в Bing. Для дальнейшего расширения они использовали GPT-4o для преобразования простых задач в более сложные. Например, базовая задача «Создать выпадающий список» преобразилась в «Создать зависимый выпадающий список, где первый выбор фильтрует варианты во втором списке.»
Эта стратегия «эволюционирования данных» помогла им увеличить набор данных до 76 000 пар — рост на 150%. Из всех этих примеров около 2 000 успешных последовательностей действий вошли в окончательный тренировочный набор.
Конвейер разработки LAM объединяет подготовку данных, обучение и реализацию в реальном мире в один непрерывный процесс. Агент связывает обученный LAM с определенными действиями Windows и использует обратную связь для внесения постоянных улучшений.
Система всё ещё сталкивается с рядом препятствий: существуют обоснованные опасения по поводу ошибок в действиях AI, регуляторные вопросы, требующие решения, а также технические ограничения, затрудняющие масштабирование или адаптацию к различным приложениям.
Несмотря на эти сложности, исследователи считают, что LAM представляют собой важный сдвиг в развитии AI и заявляют, что эти «Large Action Models» обозначают значительный шаг к AGI. Вместо систем AI, которые просто понимают и генерируют текст, в ближайшем будущем у нас могут появиться AI-помощники, которые активно помогают нам выполнять реальные задачи.
Источник
Источник: habr.com