
Latest Global Model Rankings: Alibaba Qwen2.5-Max surpasses DeepSeek V3

在最新的全球大模型榜單中,阿里的最新大語言模型 Qwen2.5-Max 排名第 7,領先於 DeepSeek V3、O1-Mini 和 Claude-3.5-Sonnet 等頂級專有大語言模型,在數學和編程方面排名第一,在處理複雜任務的硬提示(hard prompts)方面排名第二。
競賽升温!最新全球大模型榜單發佈,阿里新模型超越 DeepSeek V3。
當地時間 2 月 4 日,在全球知名的 AI 模型評測平台 Chatbot Arena 公佈了最新一期的榜單。其中,阿里通義千問團隊的最新大語言模型 Qwen2.5-Ma 取得了優異成績,在總體排名中躋身第 7,領先於 DeepSeek V3、O1-Mini 和 Claude-3.5-Sonnet 等頂級專有大語言模型。

分別看打分項,Qwen2.5-Max 在技術領域表現尤為出色,在數學和編程方面排名第一,在處理複雜任務的硬提示(hard prompts)方面排名第二。

繼 DeepSeek 之後,Qwen2.5-Max 的發佈是中國 AI 陣營在高性能、低成本技術路線上的又一重要突破。市場人士此前分析稱,外界此前過度聚焦 DeepSeek,卻忽視了包括阿里通義在內的中國 AI 整體性追趕。如果阿里 Qwen-2.5-max 的性能確實展現出預期水平,加之其低成本優勢與完整雲生態,或引發 DeepSeek 之後的中國 AI 資產新一輪重估。
1 月 29 日凌晨,阿里通義千問團隊悄悄上線 Qwen2.5-Max,該模型一經發布便在 MMLU-Pro、LiveCodeBench、LiveBench 和 Arena-Hard 等主要基準測試中取得領先成績,展現出與全球頂級模型比肩的性能。
據介紹,最新的 Qwen2.5-Max 採用了超大規模的專家混合(MoE)模型架構,預訓練數據量超過 20 萬億個 token,運用監督微調(SFT)和人類反饋強化學習(RLHF)技術進行優化,在知識、編程、通用能力和人類對齊等方面表現優異。
目前,全球開發者和企業可通過阿里雲的生成式 AI 開發平台 Model Studio 訪問 Qwen2.5-Max。
Qwen2.5-Max 發佈後,迅速吸引了海內外用户和開發者的大量關注。
有網友生動地概括,Qwen2.5-Max 相當於 “中文版的 ChatGPT”,但水平要比後者 “高得多”。

有用户表示,Qwen2.5-Max“重新定義” 了視頻生成功能,已經超過 OpenAI 的 Sora。

甚至有用户認為,Qwen2.5-Max 已經把 ChatGPT、DeepSeek 狠狠 “拍在了沙灘上”。

還有網友製作梗圖,猜測繼 DeepSeek-R1 後,這款來自中國的強大 AI 模型將進一步加劇 OpenAI 的擔憂。

