Конкуренция в сфере торговли искусственным интеллектом завершилась. Отечественная модель выиграла GPT-5, потеря 60%


Автор: Sleepy.txt

Ранним утром 4 ноября долгожданное торговое соревнование искусственного интеллекта Alpha Arena подошло к концу.

Результаты удивили всех. Qwen 3 Max от Alibaba выиграл чемпионат с доходностью 22,32%, а другая китайская компания DeepSeek заняла второе место с доходностью 4,89%.

Четыре звездных игрока из Кремниевой долины потерпели поражение по всем направлениям. GPT-5 от OpenAI потерял 62,66%, Gemini 2.5 Pro от Google потерял 56,71%, Grok 4 от Маска потерял 45,3%, а Claude 4.5 Sonnet от Anthropic также потерял 30,81%.

Торговые кривые всех моделей|Источник: nof1

Эта игра на самом деле представляет собой особый эксперимент. 17 октября американская исследовательская компания Nof1.ai вывела на реальный рынок криптовалют шесть лучших в мире больших языковых моделей. Каждая модель получила первоначальный капитал в размере 10 000 долларов США для проведения 17-дневных бессрочных контрактных сделок на децентрализованной торговой платформе Hyperliquid. Бессрочные контракты — это деривативы без даты истечения срока действия, которые позволяют трейдерам увеличивать прибыль за счет кредитного плеча, но в то же время они также увеличивают риски.

Эти ИИ начинают с одной и той же отправной точки и имеют одни и те же рыночные данные, но конечный результат совершенно разный.

Это не бенчмарк-тест в виртуальной среде, а игра на выживание на реальные деньги. Когда ИИ покинет «стерильную» среду лаборатории и впервые столкнется с динамичным, конфронтационным и неопределенным реальным рынком, его выбор больше не будет определяться параметрами модели, а его пониманием риска, жадности и страха.

Этот эксперимент позволил людям впервые увидеть, что когда так называемый «интеллект» сталкивается со сложностью реального мира, элегантная работа модели часто оказывается неустойчивой, обнажая недостатки, выходящие за рамки обучения.

От автора вопросов до трейдера

В течение долгого времени люди использовали различные статические тесты для измерения возможностей ИИ.

От MMLU до HumanEval, ИИ получает все более высокие баллы по этим стандартизированным тестовым заданиям, даже превосходя людей. Но суть этих тестов заключается в том, что вопросы задаются в тихой комнате, причем вопросы и ответы фиксируются. ИИ нужно только найти оптимальное решение в огромных массивах данных. Он может запоминать ответы даже на самые сложные математические задачи.

Реальный мир, особенно финансовые рынки, совершенно иной.

Это не статичный банк вопросов, а постоянно меняющаяся арена, полная шума и обмана. Это игра с нулевой суммой, и выигрыш одного человека должен означать проигрыш другого. Колебания цен никогда не являются результатом рациональных расчетов, на них также влияют человеческие эмоции. Жадность, страх, удача и нерешительность ясно видны в каждом скачке цен.

Еще больше усложняет ситуацию то, что рынок сам реагирует на поведение человека. Когда все верят, что цены вырастут, цены часто достигают своего пика.

Этот механизм обратной связи постоянно исправляет, дает неприятные последствия и наказывает за уверенность, в сравнении с чем бледнеет любое статическое тестирование.

Alpha Arena, запущенная Nof1.ai, призвана превратить ИИ в настоящий социальный плавильный котел. Каждой модели даются реальные деньги, убытки — это реальные убытки, а прибыль — это реальная прибыль.

Модель должна самостоятельно выполнять анализ, принятие решений, размещение заказов и контроль рисков. Это эквивалентно предоставлению каждому ИИ независимой торговой комнаты, превращая его из «создателя вопросов» в «трейдера». Он должен решить не только направление открытия позиции, но и размер позиции, время принятия мер, а также стоп-лосс или тейк-профит.

Записи эксплуатации разных моделей|Источник: nof1

Что еще более важно, каждое их решение будет менять экспериментальную среду. Покупка поднимет цену вверх, продажа – вниз. Стоп-лосс может спасти вам жизнь, или вы можете пропустить отскок. Рынок изменчив, и каждый шаг определяет следующий шаг.

Этот эксперимент хочет ответить на более фундаментальный вопрос: действительно ли ИИ понимает риск.

В статических тестах он может полагаться на память и сопоставление с образцом, чтобы бесконечно приблизиться к «правильному ответу»; но на реальном рынке, где нет стандартного ответа и где полно шума и обратной связи, как долго может сохраняться его «интеллект», когда ему приходится действовать в условиях неопределенности?

Рынок преподает урок ИИ

Ход игры оказался более драматичным, чем предполагалось.

В середине октября рынок криптовалют был чрезвычайно волатильным: цена биткойна подпрыгивала вверх и вниз почти ежедневно. Именно в этой среде шесть моделей ИИ начали свою первую настоящую торговлю.

Тенденция цен на биткойны во время конкурса|Источник: TradingView

К 28 октября, то есть к середине конкурса, будет опубликован промежуточный список. Стоимость счета DeepSeek выросла до 22 500 долларов США, а норма прибыли составила 125%. Другими словами, он увеличил свои деньги более чем вдвое всего за 11 дней.

Сразу за ним следует Qwen компании Alibaba с доходностью, превышающей 100%. Даже Клод и Грок, которые позже потерпели поражение, на тот момент все еще сохраняли прибыль на уровне 24% и 13%.

Социальные сети быстро стали вирусными. Некоторые люди начали обсуждать, стоит ли им передать свои инвестиционные портфели управлению ИИ, а некоторые полушутя сказали, что, возможно, ИИ действительно нашел торговый код, позволяющий получать прибыль без потери денег.

Однако вскоре жестокость рынка стала очевидной.

В начале ноября биткойн колебался около 110 000 долларов, при этом волатильность резко усилилась. Те модели, которые увеличивали свои ставки во время восходящего тренда, понесли большие потери, когда рынок развернулся.

В итоге только две модели из Китая смогли сохранить прибыль, а показатели американского стана были разгромлены. Эта конкуренция, похожая на американские горки, позволила нам впервые ясно увидеть, что ИИ, которые, по нашему мнению, были далеко впереди, не так умны, как представлялось на реальном рынке.

Разделение торговых стратегий

Из данных транзакций можно увидеть «личность» каждого ИИ.

Квен торговал всего 43 раза за 17 дней, в среднем менее трёх раз в день, что делает его самым сдержанным из всех игроков. Его выигрышный коэффициент не является выдающимся, но соотношение прибыли и убытков для каждого выстрела чрезвычайно велико: максимальная прибыль от одной транзакции достигает 8176 долларов США.

Другими словами, Квен не «самый точный в прогнозах», а «самый дисциплинированный в ставках». Он действует только тогда, когда уверен, и предпочитает стоять на месте, когда не уверен. Эта стратегия высокого качества сигнала позволила ей ограничить откаты во время коррекций рынка и в конечном итоге сохранила плоды победы.

У DeepSeek было такое же количество ходов, как и у Qwen, всего 41 за 17 дней, но он вел себя скорее как осторожный управляющий фондом. Его коэффициент Шарпа является самым высоким среди всех игроков и достигает 0,359. На крайне нестабильном рынке криптовалют такое число уже довольно редкое.

На традиционных финансовых рынках коэффициент Шарпа обычно используется для измерения доходности с поправкой на риск. Чем выше значение, тем надежнее стратегия. Но в условиях такого короткого цикла и такого агрессивного рынка любая модель, способная поддерживать положительную стоимость, непроста. Результаты DeepSeek показывают, что компания не гонится за максимизацией прибыли, а стремится поддерживать баланс в среде с высоким уровнем шума.

На протяжении всей игры всегда сохранял ритм, не гонялся за усилением и не двигался вслепую. Больше похожий на трейдера со строгой системой, он скорее откажется от возможностей, чем позволит эмоциям доминировать над принятием решений.

Напротив, деятельность лагеря искусственного интеллекта в США обнажает очевидные проблемы с контролем рисков.

Gemini от Google разместила в общей сложности 238 заказов за 17 дней, в среднем более 13 раз в день, что является самым частым показателем среди всех игроков. Такие высокочастотные транзакции также влекут за собой огромные затраты: только комиссия за обработку обходится в 1331 доллар США, что составляет 13% от первоначальной основной суммы. В турнире со стартовым капиталом всего в $10 000 это огромная нагрузка на вас.

Хуже всего то, что такая частая торговля не приносит дополнительного дохода. Близнецы продолжают пытаться и совершать ошибки, останавливая убытки и пытаясь снова и снова, как розничный инвестор, одержимый наблюдением за рынком, ведомый рыночным шумом. Каждое незначительное колебание цены активирует торговый приказ. Он слишком быстро реагирует на колебания и слишком медленно воспринимает риск.

В поведенческих финансах у этого дисбаланса есть название — чрезмерная самоуверенность. Трейдеры переоценивают свои способности к прогнозированию, но игнорируют накопление неопределенности и затрат. Неудача Близнецов — типичное следствие этой слепой уверенности.

Производительность GPT-5 разочаровывает больше всего. Для этого потребовалось не так много прививок, 116 за 17 дней, но уровень риска был незначительным. Самый крупный разовый убыток достиг 622 долларов США, а самая большая прибыль составила всего 271 доллар США. Соотношение прибылей и убытков было серьезно несбалансированным. Это похоже на игрока, движимого уверенностью. Иногда он может выиграть, когда рынок идет хорошо, но как только рынок развернется, потери будут умножены.

Его коэффициент Шарпа равен -0,525, что означает, что он не пошел на риск в обмен на какое-либо вознаграждение. В сфере инвестиций этот результат почти эквивалентен «лучше не работать».

Этот эксперимент еще раз доказывает, что на самом деле победу или поражение определяет не точность прогнозов модели, а то, как она справляется с неопределенностью. Победа Qwen и DeepSeek — это, по сути, победа в области контроля рисков. Кажется, они лучше понимают, что на рынке, только выжив в первую очередь, можно считаться умным.

Реальный рынок — зеркало ИИ

Результаты Alpha Arena — это грубая насмешка над нынешней системой оценки ИИ. Те «умные модели», которые входят в число лучших в тестах производительности, таких как MMLU, теряют позиции, когда выходят на реальный рынок.

Эти модели являются мастерами языка, составленными из бесчисленных текстов. Они могут давать ответы, основанные на строгой логике и идеальной грамматике, но могут не понимать реальности, на которую на самом деле указывают эти тексты.

ИИ может написать статью по управлению рисками за несколько секунд, с достойными цитатами и полными аргументами; он также может точно объяснить, что такое коэффициент Шарпа, максимальная просадка и стоимость риска. Но когда у него действительно есть деньги, он может принимать самые рискованные решения. Потому что оно только «знает», а не «понимает».

Знать и понимать — две разные вещи.

Существует огромная разница между способностью сказать это и способностью это сделать.

Этот разрыв называется гносеологической проблемой в философии. Платон однажды провел различие между знанием и истинной верой. Знание – это не просто правильная информация, но и понимание того, почему она правильная.

Сегодняшние большие языковые модели могут содержать тонны «правильной информации», но у них нет такого понимания. Он может рассказать вам о важности управления рисками, но он не знает, как люди осознают эту важность из страха и потерь.

Реальный рынок — лучшее место для проверки вашего понимания. Это не будет снисходительно только потому, что вы GPT-5. Каждое неверное решение будет немедленно возвращено на счет в виде потери средств.

В лаборатории ИИ можно повторять бесчисленное количество раз, постоянно корректируя параметры и проверяя историю, пока не найдет так называемый «правильный ответ». Но на рынке каждая ошибка означает потерю реальных денег, и пути назад для этой потери нет.

Логика рынка также гораздо сложнее, чем предполагает модель. Когда принципал теряет 50%, для возврата к исходной точке требуется 100% доход; когда убыток увеличится до 62,66%, доход, необходимый для возврата основной суммы долга, вырастет до 168%. Этот нелинейный риск умножает цену ошибок. ИИ может минимизировать потери с помощью алгоритмов во время обучения, но он не может по-настоящему понять механизм рыночного наказания, сформированный страхом, колебаниями и жадностью.

Из-за этого рынок стал зеркалом для проверки подлинности разведданных. Это позволяет людям и машинам ясно видеть, что они на самом деле знают и чего на самом деле боятся.

Эта игра также заставляет людей переосмыслить различия в идеях исследований и разработок искусственного интеллекта между Китаем и Соединенными Штатами.

Несколько крупных компаний в США по-прежнему придерживаются общей модели, надеясь создать системы, способные демонстрировать стабильные возможности в широком диапазоне задач. К этому типу относятся модели OpenAI, Google и Anthropic. Их цель — добиться широты и последовательности, чтобы модель обладала возможностями междоменного понимания и рассуждения.

Китайская команда предпочитает рассматривать реализацию и механизм обратной связи конкретных сценариев на ранних этапах разработки модели. Хотя Qwen от Alibaba также является крупной моделью общего назначения, ее среда обучения и тестирования ранее была подключена к реальной бизнес-системе. Такая перекомпоновка данных из реальных сценариев может незаметно сделать модель более чувствительной к рискам и ограничениям. Производительность DeepSeek демонстрирует аналогичные характеристики, поскольку он способен быстрее корректировать решения в динамичных средах.

Это не вопрос «кто выиграет, а кто проиграет». Этот эксперимент дает представление о том, как различные философии обучения работают в реальном мире. Модели общего назначения подчеркивают универсальность, но склонны к зависанию в экстремальных условиях; в то время как те модели, которые раньше подвергаются реальной обратной связи, могут оказаться более гибкими и стабильными в сложных системах.

Конечно, результат одной игры может не отражать общую силу китайского и американского ИИ. Семнадцатидневный торговый цикл слишком короток, и влияние удачи трудно исключить; если время продлить, тенденция может быть совершенно иной. Более того, этот тест включает в себя только торговлю бессрочными контрактами на криптовалюту, которую невозможно экстраполировать на все финансовые рынки и недостаточно для обобщения эффективности ИИ в других областях.

Но этого достаточно, чтобы заставить человека переосмыслить, что представляет собой истинные способности. Когда ИИ помещается в реальную среду и ему необходимо принимать решения в условиях рисков и неопределенности, мы видим не только успех или неудачу алгоритма, но и разницу в путях. На пути преобразования технологии искусственного интеллекта в реальную производительность китайская модель уже стала лидером в некоторых конкретных областях.

На момент окончания игры последняя позиция Квена в биткойнах была закрыта, а баланс его счета был зафиксирован на уровне 12 232 долларов США. Он победил, но не знал, что победил. Этот прирост в 22,32% для него ничего не значит, это просто еще один приказ на исполнение.

В Кремниевой долине инженеры, возможно, все еще празднуют увеличение показателя MMLU GPT-5 еще на 0,1%. На другом конце света ИИ из Китая только что самым простым способом доказал в казино на реальные деньги, что только хороший ИИ может зарабатывать деньги.

Nof1.ai объявил, что скоро стартует следующий сезон соревнований. Цикл будет длиннее, участников будет больше, а рыночная среда станет сложнее. Смогут ли модели, проигравшие в первом сезоне, чему-нибудь научиться на своих поражениях? Или та же судьба повторится с еще большими колебаниями?

Никто не знает ответа. Но что можно сказать наверняка, так это то, что когда ИИ начнет выходить из башни из слоновой кости и доказывать свою состоятельность реальными деньгами, все будет по-другому.



Ссылка на источник

Что на самом деле означают стейблкоины для США, развивающихся рынков и будущего валюты

ПредисловиеПоследние несколько дней я думал о недавнем сообщении Сандипа (соучредителя и главного операционного директора Polygon).Это побудило меня вернуться к своим заметкам и покопаться в некоторых данных, и чем больше я смотрел на цифры, тем больше все это имело смысл (намного яснее, чем может себе...

Криптоядро – разочарование в финансах

Автор: 0xTodd; Источник: X, @0x_ToddСуть Crypto — расколдовать финансы.Сначала все думали, что монеты редкие, а затем родилась эмиссия монет в один клик. Позже все почувствовали, что цепи — редкость, и тогда родилась трата цепей в один клик. Тогда все думали, что было бы здорово,...

Последнее выступление председателя Комиссии по ценным бумагам и биржам США: следующим шагом Project Crypto является создание таксономии токенов

источник:Официальный сайт SECСоставитель: Golden FinanceВ среду по местному времени в США Пол Аткинс, председатель Комиссии по ценным бумагам и биржам США (SEC), выступил с речью на конференции Fintech Федерального резервного банка Филадельфии.В своем выступлении Пол Аткинс изложил свой план «таксономии токенов» криптовалют, чтобы четко...

Текущая ситуация разницы между пользователями криптовалюты: отсутствие огромного количества держателей и активных пользователей

Автор: Пратик Десаи, Источник: Token Dispatch, Составитель: Shaw Golden FinanceНа бумаге базовая база пользователей криптовалют огромна. Число людей во всем мире, владеющих той или иной формой цифровых активов, достигло рекордного уровня, превысив 700 миллионов. Если бы ее считали страной, она была бы третьей по...

Повторять ошибки необанков в криптовалюте или перестраивать правильную модель?

автор:0xкокосПредисловиеВы знали? Менее 5% необанков прибыльны?Новые банки имеют привлекательное предложение: полностью цифровые банковские услуги, более низкие комиссии и лучший пользовательский опыт. Однако оказывается, что этиЭкономика цифрового банкинга фундаментально слаба.В этой статье мы углубимся в то, почему многие традиционные новинкитипДоход банка в основном зависит оттипДоходы...

Я заработал 5 миллионов на раздачах PVN, и всех оштрафовали? Как нам следует относиться к этому вопросу?

введениеСегодня друг переслал мне статью моего коллеги-юриста, юриста Чжан Сухана: «Студией Lu Airdrop воспользовались!» Конфисковано 5 миллионов незаконных доходов! 》, я хочу, чтобы я проанализировал, действительно ли раздача по воздуху представляет собой такой большой риск. Я внимательно прочитал статью юриста Чжана и почувствовал, что...

Круглый стол регуляторов криптовалюты Гонконга: слишком сильное стремление к совершенству приведет к закрытой среде, ограничивающей ликвидность

Содержание этой статьи взято из двух дискуссий на саммите Finternet 2025 Asia Digital Finance. В первой части обсуждалась «Эволюция регулирования цифровых активов от Гонконга до Ближнего Востока». Модератором выступил Рокки Тунг, директор и руководитель отдела политических исследований Совета финансового развития Гонконга. Гостями были Элизабет...
spot_img

Какие события повлияли на тенденцию крипто -рынка в марте? На что обратить внимание в апреле

Автор: Аарон Вуд, Cointelegraph; Перевод: Дэн Тонг, Golden FinanceМарт - сложный месяц для рынка - неопределенная тарифная политика президента США Дональда Трампа вызвала...

10 красных знаков для «поддельных воздушных кадров» и как избежать

Автор: Дилип Кумар Патайрья Источник: Cointelegraph Перевод: Shan Oppa, Golden Financeкраткое содержаниеВ 2024 и 2025 годах поддельные мошенничества с воздушным средством против таких...

Трамп делает большой шаг в 9 трлн пенсии, чтобы выйти на крипто -рынок

В одночасье Financial Times выявила важную новость: президент США Трамп готовится подписать распоряжение, позволяющее пенсионным планам, таким как 401 (k) инвестировать в «альтернативные...

Будет ли BTC падать до 3-месячного минимума?

Автор: Марсель Пехман, Cointelegraph;В период с 24 февраля по 25 февраля цена BTC упала с 95 930 долл. США до 86 010 долл....

Основные моменты и понимание саммита цифровых активов (DAS)

Автор: Yano, Blockworks Lianchuang; Перевод: Golden Finance XiaozouВы завершил Digital Asset Summit 2025 (далее именуемый «DAS 2025»). В этой статье давайте посмотрим на...

Новый председатель SEC повторяет необходимость пересмотра криптографических правилах, обещающих положить конец «правилам правоохранительных органов»

Источник: Блокчейн РыцарьПредседатель SEC Пол Аткинс призвал к комплексной модернизации политики в области крипто-активов США и обрисовал в общих чертах стратегию из трех...

ARK: Относительная волатильность Биткойна низкая, и ожидается, что в 2025 году она вырастет еще больше

Автор: Сэм Бурджи. CoinTelegraph Составил: Бай Шуй, Golden Finance;Цена BTC испытала резкие колебания после того, как в декабре не смогла удержаться выше 100...

Токенизация акций США: сифон «Глобальная ликвидность» с «регулирующими дивидендами»

Автор: Daii Источник: зеркалоЖивые стаблеки в долларах США еще не подошли к концу, и тепловая волна токенизации акций США тихо появилась.В то время...

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь