
Free commercial license! Alibaba open-sources Tongyi Qianwen QwQ-32B, performance close to DeepSeek R1 full version

阿里巴巴在港股市場上漲 6.24%,報 138 港元。阿里雲於 3 月 6 日開源了推理模型通義千問 QwQ-32B,性能接近 DeepSeek R1 滿血版,且以 Apache 2.0 協議免費商用。QwQ-32B 擁有 325 億參數,較預覽版在上下文長度和 AIME 評分上有顯著提升,表現出強競爭力。
智通財經 APP 獲悉,AI 領域又有新動作!3 月 6 日,阿里雲通義千問官方宣佈發佈並開源全新的推理模型通義千問 QwQ-32B。據瞭解,這款擁有 325 億參數的模型,其性能可與具備 6710 億參數 (其中 370 億被激活) 的 DeepSeek-R1 滿血版相媲美,並超過了 OpenAI o1-mini。而且此次以 Apache 2.0 開源協議開源,意味着大家可以完全免費商用。二級市場上,阿里昨日在港股市場出現較大漲幅,截至目前,港股阿里巴巴-W(09988) 報 138 港元,漲幅 6.24%。
實際上,在去年 11 月 28 日,阿里就已經開源了預覽版的推理大模型 QwQ-32B-Preview,彼時 DeepSeek R1 尚未發佈,這應該是當時最早開源的推理大模型之一。三個月後的今天,QwQ-32B 正式開源,去掉了預覽版的標籤。與之前的預覽版相比,正式版在上下文長度和 AIME 評分等方面有顯著提升,例如上下文長度從 32K 增加到 131K,AIME 評分提升了 50%。
具體來看,QwQ-32B 在多個基準測試中均表現出很強的競爭力,阿里雲對 QwQ-32B 測試了數學推理、編程能力和通用能力,並展示了 QwQ-32B 與其他領先模型的性能對比,包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原始的 DeepSeek-R1。
在測試數學能力的 AIME24 評測集上,以及評估代碼能力的 LiveCodeBench 中,千問 QwQ-32B 表現與 DeepSeek-R1 相當,遠勝於 o1-mini 及相同尺寸的 R1 蒸餾模型;在由 Meta 首席科學家楊立昆領銜的 “最難 LLMs 評測榜” LiveBench、谷歌等提出的指令遵循能力 IFEval 評測集、由加州大學伯克利分校等提出的評估準確調用函數或工具方面的 BFCL 測試中,千問 QwQ-32B 的得分均超越了 DeepSeek- R1。
目前,QwQ-32B 已在 Hugging Face 和 ModelScope 開源,並採用了 Apache 2.0 開源協議,用户可以免費體驗其強大的推理能力。
在致力於開發下一代 Qwen 的過程中,阿里雲計劃將更強大的基礎模型與依託規模化計算資源的 RL 相結合,從而使其更接近實現人工通用智能。此外,阿里雲正積極探索將智能體與 RL 集成,以實現長時推理。
