
ByteDance AI drives the acceleration of Agent implementation

構建 AI 基礎設施。
作者 | 劉寶丹
編輯 | 黃昱
在 AI 模型落地之戰中,All In AI 的字節拿出了最新武器。
4 月 17 日,火山引擎面向企業市場發佈豆包 1.5・深度思考模型,它具備視覺推理能力,能像人類一樣對看到的事物進行聯想和思考。同時,火山引擎還升級了文生圖模型 3.0 和視覺理解模型。
火山引擎總裁譚待表示,豆包 1.5・深度思考模型在專業領域的推理任務中表現出色,數學推理 AIME2024 測試得分追平 Open AI o3-mini-high。它在編程競賽、科學推理、創意寫作等方面也表現出色。
深度思考模型是構建 Agent 的基礎,得益於模型性能的提升,字節開始把重點放在 Agent 落地上。
譚待希望,AI 能夠解決更復雜,更完整的問題,不再僅僅是對信息的感知、處理和生成,而是能端到端的處理任務。比如,幫用户做好行程規劃並且完成買票。
會上,火山引擎宣佈推出 OS Agent 解決方案及 AI 雲原生推理套件,幫助企業更快、更省地構建和部署 Agent 應用。
華爾街見聞獲悉,OS Agent 解決方案包含豆包 UI-TARS 模型,以及 veFaaS 函數服務、雲服務器、雲手機等產品,實現對代碼、瀏覽器、電腦、手機以及其他 Agent 的操作。
以豆包 UI-TARS 模型為例,它將屏幕視覺理解、邏輯推理、界面元素定位和操作整合在一起,突破傳統自動化工具依賴預設規則的侷限性,為 Agent 的智能交互提供了更接近人類操作的模型基礎。
要做好 Agent,除了模型能力和好的架構和工具之外,成本也是 Agent 落地的重要因素。
為此,火山引擎專門打造了 AI 雲原生 Serving Kit 推理套件,讓模型部署更快、推理成本更低。華爾街見聞從火山引擎內部獲悉,GPU 消耗相比傳統方案降低 80%。
隨着 Agent 加快落地,對火山引擎來説,會帶來更大量的模型推理消耗。
據火山引擎披露,截至 2025 年 3 月底,豆包大模型日均 tokens 調用量已達到 12.7 萬億,較去年 5 月發佈時增長上百倍。根據 IDC 發佈的《中國公有云大模型服務市場格局分析,1Q25》顯示,火山引擎以 46.4% 的市場份額位居第一。
不過,Agent 仍處於探索階段,火山引擎要想更好推動 Agent 落地,還要在市場中接受更多考驗。
以下為華爾街見聞與譚待的交流實錄(經編輯):
問:DeepSeek R2 正在緊鑼密鼓地籌劃,面對這個開源的強力競爭對手,豆包整個閉源的策略和後續的商業化是怎麼樣的?
譚待:我主要説一下火山引擎,開源和閉源不是關鍵,模型的優劣才是關鍵。
昨天 Open AI 發佈了 o4mini 和 o3,競爭是好事。若把當前的 AI 發展看作一場馬拉松,可能現在才跑了 500 米,大家在競爭中相互推動,無論是技術還是行業應用都能快速發展。
商業模式方面,火山引擎作為雲廠商,一是做好基礎設施 AI 雲原生;二是提供最好的模型以及模型上的各種應用,DeepSeek 推出後,所有云廠商中對其適配最好的就是火山引擎。
問:未來 2 年,火山引擎的大模型 token 調用還會保持近百倍的增長嗎?
譚待:從長期來看,百倍甚至更高的增長是有可能的,但具體是 2 年還是 3 年,最關鍵的取決於模型是否有重大突破。
去年到今年增長很快,是因為模型有幾個重大突破:一是,最基礎的聊天和信息處理能力提升且成本下降;二是,今年深度思考功能的推出也是一個突破。往後發展還有很多關鍵節點,比如,Agent 相關技術能否取得更大進展。
每一次大模型突破肯定能激發一次大的變化,但 2 年內能否再翻 100 倍,要謹慎樂觀。
問:針對豆包模型的全面升級,您給豆包的表現打多少分?這次升級更強調了文本推理更強、成本更低、更容易落地,這三個優勢哪個實現起來是最難的?
譚待:我就不打分了,因為模型進展太快,今天打 100 分,可能 1 個月以後只有 60 分,靜態打分意義不大。相比於主觀打分,更有價值的是客觀數據,比如有多少人使用豆包 APP,有多少大企業在調用豆包模型。
整體來説,實現效果好最難,因為要先用各種方法達到最好的效果,然後在這個基礎上再用各種方式去降低成本,這是一個優化的過程。
問:火山未來會支持 MCP 協議,或者類似的協議,您怎麼看待通過統一協議來爭奪開發生態話語權這樣一個競爭?
譚待:火山引擎已經支持了 MCP 協議。我覺得,協議統一很重要,以前不同廠商如 Google 或者其他相關產品,都有不同的插件協議,這使得開發者去適配的成本比較高。如果能做到統一協議,大家的應用開發就會更快,模型調用也會更智能。
我們希望一起擁抱和建設一個開放的協議,就像早期互聯網的 HTTP 和 HTML 協議一樣,這樣才能加速整個行業的發展。
問:那您考慮推出類似 A2A 這種新協議嗎?
譚待:我覺得,首先還是要把 MCP 這個最基礎的事情做好,A2A 可以看作是 MCP 的一個擴展。
問:火山引擎做 OS Agent 方案的原因是什麼?
譚待:火山引擎圍繞模型提供 OS Agent 方案,目標是做好相關基礎建設。很多時候,實現相關功能需要多模態的支持,如果要下單,調用 API,就需要 MCP 的支持。對於一些長尾需求,可能還需要直接操縱電腦、瀏覽器、手機等,這就是我們做 OS Agent 方案的原因。
問:關於 AI 智能眼鏡,想請您透露一下進展。
譚待:我也不是特別清楚。
對火山引擎來説,不管是內部需求還是外部需求,都採用統一的方案來解決。從外部視角看,隨着模型能力的提升,以前很多做不了的事情現在都可以實現,比如 AI 眼鏡、AI 玩具、智能攝像頭、門鎖等。
問:目前,字節對於 Agent 市場發展的看法是什麼?
譚待:不能簡單説是 “押注”。隨着 AI 發展,聊天和信息處理只是其中一小部分,要真正為各行各業帶來變革,Agent 是必經之路。如果做不好 Agent 相關工作,就難以實現 AI 的社會和經濟價值。
Agent 大概有兩種類型,一種是垂直類 Agent,另一種是通用型 Agent。對於垂直類 Agent,火山引擎會基於自身優勢領域進行探索,比如之前推出的數據 Agent。
對於通用型 Agent,更重要的是搭建好基礎框架、提供好用的工具,所以我們推出了 OS Agent 解決方案,藉助新的 AI 雲原生組件、SandBox 和新模型,讓開發者和企業能更輕鬆地打造自己的通用 Agent,這是火山未來的重要發展方向。
問:火山在對內支持和對外擴張上是怎樣的比重?接下來在團隊擴招上有沒有計劃?
譚待:從成立之初,我們就堅持技術內外統一,這樣既能保障對內服務,也能做好對外支持。通過技術和資源複用,我們能為內外客户提供性價比更高的服務,像我們的 MaaS 和雲服務,性價比優勢就源於此。
關於業務擴張,與規模相關的業務,如服務更多客户,需要擴充銷售團隊等,人員會相應增加;產品研發更注重質量,我們也在思考如何藉助 AI 提升自身產品研發和維護的效率。
問:接下來一兩年有保持領先優勢的規劃嗎?您如何定義 Agent?
譚待:我們致力於成為 AI 時代最優秀的雲廠商,始終秉持三個理念:持續優化模型,保持競爭力;不斷降低成本,包括費用、延遲和提高吞吐率;讓產品更易於落地。未來我們會在這三方面持續發力。
目前,很多智算中心主要用於模型訓練,但模型只有在應用階段才能產生經濟價值。從今年到未來,模型應用的消耗將遠超訓練本身。
關於 Agent 定義,Agent 應能完成專業度較高、耗時較長的完整任務,這是從定性角度來看。從技術實現角度,如果沒有運用思考模型,缺乏反思和規劃能力,也很難被認定為 Agent。
今年大家對 Agent 的定義會更加清晰,或許會像自動駕駛分級(AgentL1、L2、L3、L4)一樣,對 Agent 進行分級,那些所謂的三四千個 Agent 可能只是 L1 級別,而真正落地可能需要達到 L2++ 及以上級別。
問:2025 年是 AI Agent 元年,字節這樣的大廠和 Manus 這樣的初創企業,誰機會更大?
譚待:機會大小取決於企業的創新能力,而非企業規模,不能以公司大小來判斷,持續保持創新能力才是關鍵。
問:大模型都存在幻覺問題,如果用於數據分析,如何減少或避免幻覺出現?
譚待:每個領域對大模型出現幻覺的接受程度都不同,關鍵在於如何降低幻覺出現的概率。
首先,模型本身的能力越強,出現幻覺的可能性越低;其次,可以引入知識庫來輔助模型,讓它在生成內容時有更可靠的參考依據;再者,增加類似驗證這樣的階段,持續提升模型在這方面的能力。
