Автор: Sleepy.txt
Ранним утром 4 ноября долгожданное торговое соревнование искусственного интеллекта Alpha Arena подошло к концу.
Результаты удивили всех. Qwen 3 Max от Alibaba выиграл чемпионат с доходностью 22,32%, а другая китайская компания DeepSeek заняла второе место с доходностью 4,89%.
Четыре звездных игрока из Кремниевой долины потерпели поражение по всем направлениям. GPT-5 от OpenAI потерял 62,66%, Gemini 2.5 Pro от Google потерял 56,71%, Grok 4 от Маска потерял 45,3%, а Claude 4.5 Sonnet от Anthropic также потерял 30,81%.

Торговые кривые всех моделей|Источник: nof1
Эта игра на самом деле представляет собой особый эксперимент. 17 октября американская исследовательская компания Nof1.ai вывела на реальный рынок криптовалют шесть лучших в мире больших языковых моделей. Каждая модель получила первоначальный капитал в размере 10 000 долларов США для проведения 17-дневных бессрочных контрактных сделок на децентрализованной торговой платформе Hyperliquid. Бессрочные контракты — это деривативы без даты истечения срока действия, которые позволяют трейдерам увеличивать прибыль за счет кредитного плеча, но в то же время они также увеличивают риски.
Эти ИИ начинают с одной и той же отправной точки и имеют одни и те же рыночные данные, но конечный результат совершенно разный.
Это не бенчмарк-тест в виртуальной среде, а игра на выживание на реальные деньги. Когда ИИ покинет «стерильную» среду лаборатории и впервые столкнется с динамичным, конфронтационным и неопределенным реальным рынком, его выбор больше не будет определяться параметрами модели, а его пониманием риска, жадности и страха.
Этот эксперимент позволил людям впервые увидеть, что когда так называемый «интеллект» сталкивается со сложностью реального мира, элегантная работа модели часто оказывается неустойчивой, обнажая недостатки, выходящие за рамки обучения.
От автора вопросов до трейдера
В течение долгого времени люди использовали различные статические тесты для измерения возможностей ИИ.
От MMLU до HumanEval, ИИ получает все более высокие баллы по этим стандартизированным тестовым заданиям, даже превосходя людей. Но суть этих тестов заключается в том, что вопросы задаются в тихой комнате, причем вопросы и ответы фиксируются. ИИ нужно только найти оптимальное решение в огромных массивах данных. Он может запоминать ответы даже на самые сложные математические задачи.
Реальный мир, особенно финансовые рынки, совершенно иной.
Это не статичный банк вопросов, а постоянно меняющаяся арена, полная шума и обмана. Это игра с нулевой суммой, и выигрыш одного человека должен означать проигрыш другого. Колебания цен никогда не являются результатом рациональных расчетов, на них также влияют человеческие эмоции. Жадность, страх, удача и нерешительность ясно видны в каждом скачке цен.
Еще больше усложняет ситуацию то, что рынок сам реагирует на поведение человека. Когда все верят, что цены вырастут, цены часто достигают своего пика.
Этот механизм обратной связи постоянно исправляет, дает неприятные последствия и наказывает за уверенность, в сравнении с чем бледнеет любое статическое тестирование.
Alpha Arena, запущенная Nof1.ai, призвана превратить ИИ в настоящий социальный плавильный котел. Каждой модели даются реальные деньги, убытки — это реальные убытки, а прибыль — это реальная прибыль.
Модель должна самостоятельно выполнять анализ, принятие решений, размещение заказов и контроль рисков. Это эквивалентно предоставлению каждому ИИ независимой торговой комнаты, превращая его из «создателя вопросов» в «трейдера». Он должен решить не только направление открытия позиции, но и размер позиции, время принятия мер, а также стоп-лосс или тейк-профит.

Записи эксплуатации разных моделей|Источник: nof1
Что еще более важно, каждое их решение будет менять экспериментальную среду. Покупка поднимет цену вверх, продажа – вниз. Стоп-лосс может спасти вам жизнь, или вы можете пропустить отскок. Рынок изменчив, и каждый шаг определяет следующий шаг.
Этот эксперимент хочет ответить на более фундаментальный вопрос: действительно ли ИИ понимает риск.
В статических тестах он может полагаться на память и сопоставление с образцом, чтобы бесконечно приблизиться к «правильному ответу»; но на реальном рынке, где нет стандартного ответа и где полно шума и обратной связи, как долго может сохраняться его «интеллект», когда ему приходится действовать в условиях неопределенности?
Рынок преподает урок ИИ
Ход игры оказался более драматичным, чем предполагалось.
В середине октября рынок криптовалют был чрезвычайно волатильным: цена биткойна подпрыгивала вверх и вниз почти ежедневно. Именно в этой среде шесть моделей ИИ начали свою первую настоящую торговлю.

Тенденция цен на биткойны во время конкурса|Источник: TradingView
К 28 октября, то есть к середине конкурса, будет опубликован промежуточный список. Стоимость счета DeepSeek выросла до 22 500 долларов США, а норма прибыли составила 125%. Другими словами, он увеличил свои деньги более чем вдвое всего за 11 дней.
Сразу за ним следует Qwen компании Alibaba с доходностью, превышающей 100%. Даже Клод и Грок, которые позже потерпели поражение, на тот момент все еще сохраняли прибыль на уровне 24% и 13%.
Социальные сети быстро стали вирусными. Некоторые люди начали обсуждать, стоит ли им передать свои инвестиционные портфели управлению ИИ, а некоторые полушутя сказали, что, возможно, ИИ действительно нашел торговый код, позволяющий получать прибыль без потери денег.
Однако вскоре жестокость рынка стала очевидной.
В начале ноября биткойн колебался около 110 000 долларов, при этом волатильность резко усилилась. Те модели, которые увеличивали свои ставки во время восходящего тренда, понесли большие потери, когда рынок развернулся.
В итоге только две модели из Китая смогли сохранить прибыль, а показатели американского стана были разгромлены. Эта конкуренция, похожая на американские горки, позволила нам впервые ясно увидеть, что ИИ, которые, по нашему мнению, были далеко впереди, не так умны, как представлялось на реальном рынке.
Разделение торговых стратегий
Из данных транзакций можно увидеть «личность» каждого ИИ.
Квен торговал всего 43 раза за 17 дней, в среднем менее трёх раз в день, что делает его самым сдержанным из всех игроков. Его выигрышный коэффициент не является выдающимся, но соотношение прибыли и убытков для каждого выстрела чрезвычайно велико: максимальная прибыль от одной транзакции достигает 8176 долларов США.
Другими словами, Квен не «самый точный в прогнозах», а «самый дисциплинированный в ставках». Он действует только тогда, когда уверен, и предпочитает стоять на месте, когда не уверен. Эта стратегия высокого качества сигнала позволила ей ограничить откаты во время коррекций рынка и в конечном итоге сохранила плоды победы.
У DeepSeek было такое же количество ходов, как и у Qwen, всего 41 за 17 дней, но он вел себя скорее как осторожный управляющий фондом. Его коэффициент Шарпа является самым высоким среди всех игроков и достигает 0,359. На крайне нестабильном рынке криптовалют такое число уже довольно редкое.
На традиционных финансовых рынках коэффициент Шарпа обычно используется для измерения доходности с поправкой на риск. Чем выше значение, тем надежнее стратегия. Но в условиях такого короткого цикла и такого агрессивного рынка любая модель, способная поддерживать положительную стоимость, непроста. Результаты DeepSeek показывают, что компания не гонится за максимизацией прибыли, а стремится поддерживать баланс в среде с высоким уровнем шума.
На протяжении всей игры всегда сохранял ритм, не гонялся за усилением и не двигался вслепую. Больше похожий на трейдера со строгой системой, он скорее откажется от возможностей, чем позволит эмоциям доминировать над принятием решений.
Напротив, деятельность лагеря искусственного интеллекта в США обнажает очевидные проблемы с контролем рисков.
Gemini от Google разместила в общей сложности 238 заказов за 17 дней, в среднем более 13 раз в день, что является самым частым показателем среди всех игроков. Такие высокочастотные транзакции также влекут за собой огромные затраты: только комиссия за обработку обходится в 1331 доллар США, что составляет 13% от первоначальной основной суммы. В турнире со стартовым капиталом всего в $10 000 это огромная нагрузка на вас.
Хуже всего то, что такая частая торговля не приносит дополнительного дохода. Близнецы продолжают пытаться и совершать ошибки, останавливая убытки и пытаясь снова и снова, как розничный инвестор, одержимый наблюдением за рынком, ведомый рыночным шумом. Каждое незначительное колебание цены активирует торговый приказ. Он слишком быстро реагирует на колебания и слишком медленно воспринимает риск.
В поведенческих финансах у этого дисбаланса есть название — чрезмерная самоуверенность. Трейдеры переоценивают свои способности к прогнозированию, но игнорируют накопление неопределенности и затрат. Неудача Близнецов — типичное следствие этой слепой уверенности.
Производительность GPT-5 разочаровывает больше всего. Для этого потребовалось не так много прививок, 116 за 17 дней, но уровень риска был незначительным. Самый крупный разовый убыток достиг 622 долларов США, а самая большая прибыль составила всего 271 доллар США. Соотношение прибылей и убытков было серьезно несбалансированным. Это похоже на игрока, движимого уверенностью. Иногда он может выиграть, когда рынок идет хорошо, но как только рынок развернется, потери будут умножены.
Его коэффициент Шарпа равен -0,525, что означает, что он не пошел на риск в обмен на какое-либо вознаграждение. В сфере инвестиций этот результат почти эквивалентен «лучше не работать».
Этот эксперимент еще раз доказывает, что на самом деле победу или поражение определяет не точность прогнозов модели, а то, как она справляется с неопределенностью. Победа Qwen и DeepSeek — это, по сути, победа в области контроля рисков. Кажется, они лучше понимают, что на рынке, только выжив в первую очередь, можно считаться умным.
Реальный рынок — зеркало ИИ
Результаты Alpha Arena — это грубая насмешка над нынешней системой оценки ИИ. Те «умные модели», которые входят в число лучших в тестах производительности, таких как MMLU, теряют позиции, когда выходят на реальный рынок.
Эти модели являются мастерами языка, составленными из бесчисленных текстов. Они могут давать ответы, основанные на строгой логике и идеальной грамматике, но могут не понимать реальности, на которую на самом деле указывают эти тексты.
ИИ может написать статью по управлению рисками за несколько секунд, с достойными цитатами и полными аргументами; он также может точно объяснить, что такое коэффициент Шарпа, максимальная просадка и стоимость риска. Но когда у него действительно есть деньги, он может принимать самые рискованные решения. Потому что оно только «знает», а не «понимает».
Знать и понимать — две разные вещи.
Существует огромная разница между способностью сказать это и способностью это сделать.
Этот разрыв называется гносеологической проблемой в философии. Платон однажды провел различие между знанием и истинной верой. Знание – это не просто правильная информация, но и понимание того, почему она правильная.
Сегодняшние большие языковые модели могут содержать тонны «правильной информации», но у них нет такого понимания. Он может рассказать вам о важности управления рисками, но он не знает, как люди осознают эту важность из страха и потерь.
Реальный рынок — лучшее место для проверки вашего понимания. Это не будет снисходительно только потому, что вы GPT-5. Каждое неверное решение будет немедленно возвращено на счет в виде потери средств.
В лаборатории ИИ можно повторять бесчисленное количество раз, постоянно корректируя параметры и проверяя историю, пока не найдет так называемый «правильный ответ». Но на рынке каждая ошибка означает потерю реальных денег, и пути назад для этой потери нет.
Логика рынка также гораздо сложнее, чем предполагает модель. Когда принципал теряет 50%, для возврата к исходной точке требуется 100% доход; когда убыток увеличится до 62,66%, доход, необходимый для возврата основной суммы долга, вырастет до 168%. Этот нелинейный риск умножает цену ошибок. ИИ может минимизировать потери с помощью алгоритмов во время обучения, но он не может по-настоящему понять механизм рыночного наказания, сформированный страхом, колебаниями и жадностью.
Из-за этого рынок стал зеркалом для проверки подлинности разведданных. Это позволяет людям и машинам ясно видеть, что они на самом деле знают и чего на самом деле боятся.
Эта игра также заставляет людей переосмыслить различия в идеях исследований и разработок искусственного интеллекта между Китаем и Соединенными Штатами.
Несколько крупных компаний в США по-прежнему придерживаются общей модели, надеясь создать системы, способные демонстрировать стабильные возможности в широком диапазоне задач. К этому типу относятся модели OpenAI, Google и Anthropic. Их цель — добиться широты и последовательности, чтобы модель обладала возможностями междоменного понимания и рассуждения.
Китайская команда предпочитает рассматривать реализацию и механизм обратной связи конкретных сценариев на ранних этапах разработки модели. Хотя Qwen от Alibaba также является крупной моделью общего назначения, ее среда обучения и тестирования ранее была подключена к реальной бизнес-системе. Такая перекомпоновка данных из реальных сценариев может незаметно сделать модель более чувствительной к рискам и ограничениям. Производительность DeepSeek демонстрирует аналогичные характеристики, поскольку он способен быстрее корректировать решения в динамичных средах.
Это не вопрос «кто выиграет, а кто проиграет». Этот эксперимент дает представление о том, как различные философии обучения работают в реальном мире. Модели общего назначения подчеркивают универсальность, но склонны к зависанию в экстремальных условиях; в то время как те модели, которые раньше подвергаются реальной обратной связи, могут оказаться более гибкими и стабильными в сложных системах.
Конечно, результат одной игры может не отражать общую силу китайского и американского ИИ. Семнадцатидневный торговый цикл слишком короток, и влияние удачи трудно исключить; если время продлить, тенденция может быть совершенно иной. Более того, этот тест включает в себя только торговлю бессрочными контрактами на криптовалюту, которую невозможно экстраполировать на все финансовые рынки и недостаточно для обобщения эффективности ИИ в других областях.
Но этого достаточно, чтобы заставить человека переосмыслить, что представляет собой истинные способности. Когда ИИ помещается в реальную среду и ему необходимо принимать решения в условиях рисков и неопределенности, мы видим не только успех или неудачу алгоритма, но и разницу в путях. На пути преобразования технологии искусственного интеллекта в реальную производительность китайская модель уже стала лидером в некоторых конкретных областях.
На момент окончания игры последняя позиция Квена в биткойнах была закрыта, а баланс его счета был зафиксирован на уровне 12 232 долларов США. Он победил, но не знал, что победил. Этот прирост в 22,32% для него ничего не значит, это просто еще один приказ на исполнение.
В Кремниевой долине инженеры, возможно, все еще празднуют увеличение показателя MMLU GPT-5 еще на 0,1%. На другом конце света ИИ из Китая только что самым простым способом доказал в казино на реальные деньги, что только хороший ИИ может зарабатывать деньги.
Nof1.ai объявил, что скоро стартует следующий сезон соревнований. Цикл будет длиннее, участников будет больше, а рыночная среда станет сложнее. Смогут ли модели, проигравшие в первом сезоне, чему-нибудь научиться на своих поражениях? Или та же судьба повторится с еще большими колебаниями?
Никто не знает ответа. Но что можно сказать наверняка, так это то, что когда ИИ начнет выходить из башни из слоновой кости и доказывать свою состоятельность реальными деньгами, все будет по-другому.

