Microsoft and Google Release New AI Models on the Same Day: Featuring Voice, Image, and Local Open-Source Capabilities

華爾街見聞
2026.04.02 22:13

微軟和谷歌同日發佈新 AI 模型。微軟推出 MAI 基礎模型,包括 MAI-Transcribe-1、MAI-Voice-1 和 MAI-Image-2,主要通過 Azure Foundry 提供。谷歌則推出 Gemma 4 開源模型,採用 Apache 2.0 許可,具備高級推理和生成能力,優化用於本地運行。兩者在功能和提供方式上存在明顯差異。

微軟和谷歌週四都宣佈推出新的 AI 模型,但兩者差異明顯:微軟發佈的是新的基礎模型 MAI,僅通過其 Azure Foundry 和僅限美國的 MAI Playground 平台提供;而谷歌推出的是全新的 Gemma 4 開源模型,可以在本地運行。此外,谷歌還將這些新開源模型的許可協議改為 Apache 2.0。

三款 “世界級” 自研 MAI 模型

微軟推出的 “世界級” 自研 MAI 模型,一共包括三款:

首先是 MAI-Transcribe-1,這是一款 “最先進” 的語音轉文本模型,能夠理解全球使用最廣泛的 25 種語言,其批量轉錄速度相比微軟現有的 Azure Fast 方案提升了 2.5 倍。

其次是 MAI-Voice-1,這是一款新的語音生成模型,只需 1 秒即可生成 60 秒的音頻。同時,它還支持在 Microsoft Foundry 中通過短音頻樣本創建定製語音。

最後是 MAI-Image-2,這是一款更快的文生圖模型,目前已經開始在 Copilot 中上線,接下來將陸續應用於 Bing 和 PowerPoint。

微軟表示:

“我們正在快速部署這些頂級模型,用於支持自家的消費者和商業產品。很快你將會在 Foundry 以及微軟各類產品和體驗中看到更多模型。”

谷歌推出的 Gemma 4 開源模型

谷歌推出的 Gemma 4 開源模型採用 Apache 2.0 許可,而不再使用此前自定義的 Gemma 許可協議。谷歌表示,這些模型具備高級推理能力、代理式工作流、代碼生成,以及視覺和音頻生成能力,並提供四種不同版本,針對本地運行進行了優化,甚至可以運行在 “數十億台安卓設備” 上。

谷歌表示:

“Gemma 4 基於與 Gemini 3 相同的世界級研究和技術,是目前你可以在本地硬件上運行的能力最強的一系列模型。它們與我們的 Gemini 模型形成互補,為開發者提供業內最強大的開源與專有工具組合。”

其中,規模較大的 26B 和 31B 版本 Gemma 4 模型,旨在運行於消費級 GPU 上,可用於驅動 IDE、編程助手以及代理式工作流。而更輕量的 E2B 和 E4B 版本,則更注重多模態能力和低延遲處理,適用於移動設備和物聯網設備(包括樹莓派)。這些模型還支持完全離線運行。

谷歌的 Gemma 4 開源模型可以在多個平台下載,包括 Hugging Face、Kaggle 和 Ollama。谷歌強調:

“這些模型在基礎設施安全方面,遵循與我們專有模型相同的嚴格安全協議。”

更多消息,持續更新中

風險提示及免責條款

市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。