По итогам первой недели бенчмарка Alpha Arena, в котором шесть разных ИИ торгуют криптовалютой на реальные деньги, только две китайские модели смогли удержаться в плюсе — Qwen3 и DeepSeek V3.1. И если Grok 4 и Claude Sonnet 4.5 закончили неделю в небольшом минусе, то Gemini 2.5 Pro и GPT-5 оказались практически банкротами.
Напомню, что в Alpha Arena каждой из шести моделей дали 10 тысяч реальных долларов и доступ к торгам. Торговля построена на техническом анализе рынка — новостной фон модели не учитывают. Абсолютным лидером пока является Qwen3, чей капитал на момент написания новости составлял примерно 17 500 долларов — рост на 75% почти за неделю. Результат DeepSeek V3.1 скромнее — 13 500 долларов.
Если Grok 4 и Claude Sonnet 4.5 на момент написания новости потеряли лишь по несколько сотен долларов, то результаты двух оставшихся моделей просто провальные: капитал Gemini 2.5 Pro сократился до примерно 3 300 долларов, а GPT-5 — до 2 800 долларов.
В некоторых медиа отмечают, что Alpha Arena полезен для оценки способности моделей не просто давать ответы, а ориентироваться в непредсказуемой обстановке. Несмотря на крайне высокую волатильность криптовалютного рынка, он не является чистой лотереей — для успешных торгов здесь важно не «нервничать» и грамотно выставлять риск-менеджмент, в чем Qwen3 и DeepSeek V3.1 пока лучше конкрентов. Ожидается, что бенчмарк продлится еще несколько недель, а после будет запущен новый сезон.
P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.
Источник: habr.com