Завершился первый сезон бенчмарка Alpha Arena, в котором ведущие ИИ получили по 10 тысяч реальных долларов, на которые торговали криптовалютами. В итоге в плюсе финишировали лишь Qwen3 Max и DeepSeek v3.1. Остальные участники — GPT-5, Gemini 2.5 Pro, Claude Sonnet 4.5 и Grok 4 — ушли в глубокий минус.
Модели торговали бессрочными фьючерсами на крупные монеты (BTC, ETH, SOL и др.) и на каждом цикле получали срез рынка и состояния счёта, после чего обязаны были выдать решение: вход/выход, направление, размер позиции, плечо и план выхода (тейк-профит/стоп-лосс).
Точные цифры получились такие (старт $10 000): Qwen3 Max — $11 884 (+18,8%), DeepSeek v3.1 — $10 591 (+5,9%), BTC buy&hold — $9 941 (−0,6%); Claude Sonnet 4.5 — $6 918 (−30,8%), Grok 4 — $5 391 (−46,1%), Gemini 2.5 Pro — $4 409 (−55,9%), GPT-5 — $3 729 (−62,7%). По кривым видно, что лидеры реально обгоняли рынок, но ценой огромной волатильности: на пиках их счета взлетали к $22–23 тыс., затем следовали просадки порядка 45–55% от вершины.
Организаторы отмечают, что это не «чемпионат мира по ИИ-трейдингу». Команда изначально тестировала поведение и риск-менеджмент, а не короновала «лучшую» модель по одному сезону. По ходу правила эксперимента ужесточали — обязали формализовать планы выхода, снизили частоту сделок, привязали размер позиции к заявленной «уверенности» — однако одна выборка всё равно не даёт универсальных выводов. Поэтому в планах запустить еще один сезон.
P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.
Источник: habr.com