Силиконовая долина готовит ИИ к жизни в реальном мире

Силиконовая долина делает ставку на среды для обучения ИИ-агентов, считая их ключевым элементом следующей волны развития ИИ. Традиционные подходы, основанные на статических датасетах, уже не обеспечивают нужной гибкости для современных задач, где агенты должны выполнять многозадачные операции и взаимодействовать с программным обеспечением так, как это делает человек. Сегодня крупнейшие лаборатории ИИ активно создают собственные среды обучения с подкреплением (RL), одновременно наблюдается рост числа стартапов, предлагающих готовые решения для этих целей. Среди них — Mechanize и Prime Intellect, а также крупные компании по разметке данных, такие как Mercor и Surge, которые инвестируют в развитие интерактивных симуляций, чтобы соответствовать требованиям рынка.

Суть RL-сред заключается в том, чтобы моделировать рабочее пространство, где агент может безопасно отрабатывать многозадачные сценарии. Например, среда может имитировать работу в браузере и ставить перед ИИ-задачу купить носки на Amazon. Агент получает оценку и вознаграждение за успешное выполнение задачи. На первый взгляд это кажется простой операцией, но на практике ИИ может ошибаться в навигации, выборе товаров или последовательности действий. Поэтому такие среды должны быть достаточно гибкими, чтобы фиксировать неожиданные ошибки и предоставлять полезную обратную связь, что делает их создание гораздо сложнее, чем работу с обычными датасетами.

Сегодняшние RL-среды позволяют агентам использовать инструменты, выходить в интернет и взаимодействовать с различными программными приложениями, что делает их универсальными. В отличие от ранних систем вроде AlphaGo, работающих в замкнутой среде, современные агенты тренируются для более широкого круга задач с использованием больших трансформерных моделей. При этом сложность таких систем выше. Ошибки могут возникнуть на любом этапе, а разработчики должны предусмотреть максимально разнообразные сценарии поведения агентов.

Рынок RL-сред быстро растет, и крупные игроки уже вкладывают миллиарды долларов. Так, Anthropic обсуждала инвестиции более 1 миллиарда долларов в развитие этих технологий в следующем году. Компании вроде Surge и Mercor создают внутренние подразделения, полностью посвященные построению RL-сред, а инвесторы надеются найти стартап, который станет «Scale AI для сред», аналогично тому, как Scale AI ранее задавала стандарты в области разметки данных. В целом, интерактивные среды обучения становятся новой основой для развития более универсальных и надежных ИИ-агентов, открывая возможности для следующего поколения цифровых помощников и автоматизированных систем.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Подробнее

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии