Intel executives appeared at the Microsoft conference: unleashing the superpowers of AI PCs, optimizing the innovative platform for running AI models

華爾街見聞
2024.05.22 00:10
portai
I'm PortAI, I can summarize articles.

AI PC 包括優化版的 OpenVino 和 DirectML,可在 CPU、GPU 和 NPU 上高效運行例如 Phi-3 這樣的生成式 AI 模型。部署能夠推理並使用工具採取行動的 AI 代理,在 AI PC 上高效運行 AI 模型,利用推測解碼和量化技術,適用於多種用例,如個人助手、安全本地聊天、代碼生成、檢索增強生成(Retrieval Augmented Generation,RAG)等等。

微軟年度 Build 開發者大會週二來襲,英特爾主體軟件架構師 Saurabh Tangri 和 AI 應用研究團隊主管 Guy Boudoukh 介紹了 AI PC 的發展情況和應用趨勢。

Tangri 介紹,AI 代理和生成式 AI 應用程序為 PC 用户提供了無與倫比的能力。AI PC 包括優化版的 OpenVino 和 DirectML,可在 CPU、GPU 和 NPU 上高效運行例如 Phi-3 這樣的生成式 AI 模型。部署能夠推理並使用工具採取行動的 AI Agents,在 AI PC 上高效運行 AI 模型,利用推測解碼和量化技術,適用於多種用例,如個人助手、安全本地聊天、代碼生成、檢索增強生成(Retrieval Augmented Generation,RAG)等等。

Tangri 表示,目前的 AI 技術已經可以將一些功能內置於平台中。他表示,當用户有在靜態數據庫進行訓練的靜態的語言模型時,需要有同時運行這些模型的能力,目前可以通過運行檢索增強生成(RAG)來增強其能力,從而增強 AI 執行更多任務的能力。

他舉例説,在一個消費者場景,你經常會遇到的問題是 “我是否超出了預算”。現在你可以通過 AI 引入你的私有數據,使用先進的 LLM(大型語言模型)進行分析,你可以沿這些線路放置一些內容,然後你就能夠從中提取一些結論和行動。

“這一元素非常新穎。我對此非常興奮,這是我們首次展示這一完整管道,從 RAG 到 LLM 再到反應、推理,全部在你的 PC 上運行。這非常有趣,非常前沿。”

Guy Boudoukh 隨後演示了利用由英特爾 Core Ultra 處理器驅動的多模態小模型 Phi-3,包括 Phi-3AI 代理的響應、與私人數據的交流、用户如何與文檔對話並通過 RAG 來生成答案等。

Boudoukh 介紹,Phi-3 ReAct 代理前端是用户向語言模型提供的指令和上下文,以實現所需任務,這可以是聊天或問答。他介紹,ReAct 提示去年由普林斯頓大學和谷歌首次引入,這是一種新的提示方法,ReAct 代表推理和執行。

他説,這種方法允許 LLM 不止做簡單的文本生成,它實際上允許 LLM 使用工具並執行操作,以更好地處理用户的輸入。它允許 LLM 結合各種工具,如 RAG、Gmail、維基百科、必應搜索等,其中一些工具可以訪問設備上的私有數據,而一些工具可以訪問互聯網。

首先可將用户查詢輸入到 ReAct 模板中,然後將其注入 Phi-3 代理,代理決定是否需要使用工具來回答用户查詢。如果需要工具,則調用工具,然後將工具的輸出返回給提示對話框,然後再次返回給代理。代理可以決定是否需要使用另一個工具來回答這個問題,這個過程會再次重複。只有當代理認定,有足夠的信息來回答用户查詢時,它才會生成答案。

在演示中,Boudoukh 詢問今年有多少隊伍參加了歐冠,代理進行了推理並理解,需要 RAG 來回答這個問題,於是搜索了 160 篇 BBC 體育新聞;然後他要求代理通過 Gmail 發送這個答案,因此代理就調用了另一個工具 Gmail 來解決這一問題。

隨後,Boudoukh 演示了 Phi-3 代理執行 RAG 的具體過程。他説,RAG 允許 LLM 通過注入檢索到的信息來訪問外部知識。首先,用户在設備上索引數百甚至數千個文件,這些文件將嵌入索引並保存到一個向量數據庫(Vector DB)中。現在,一旦用户提供查詢,從數據庫中檢索信息,並創建一個由用户查詢和檢索信息組成的新統一提示,然後將這個提示注入 LLM 並生成答案。

他説,RAG 有幾個優勢。首先,它增強了 LLM 的知識,而不需要訓練模型。其次,這樣的數據使用非常高效,因為不需要提供整個文檔,只需要提供檢索到的信息。這減少了模型的幻想並提高了可靠性,因為在提供答案時,它會參考獲取答案的相關數據。

在隨後的演示中,Boudoukh 跳過代理,直接詢問機器今年有多少隊伍參加了歐冠,他首先並未使用 RAG,結果代理生成了錯誤的答案,回答説今年有 32 支隊伍,但實際上今年有 36 支隊伍參賽。然後他調用 RAG 詢問同一問題,就得出了正確的答案。

Boudoukh 表示,這可以向開發者展示,如何利用軟件棧在 NPU、CPU 和集成 GPU 之間分配工作。例如,這裏的語音識別模型 Whisper 是在 NPU 上運行的,Phi-3 推理則在集成 GPU 上運行,而數據庫搜索則在 CPU 上運行。

最後 Boudoukh 進行了 LLaVA Phi3 多模態模型演示。他介紹,該模型是經過視覺和顏色訓練的,因此可以處理涉及文本和圖像的多模態任務。他將一張圖像插入模型,並要求模型描述圖像場景,模型則給出了對場景的詳細理解,甚至建議在這裏釣魚放鬆。

他還展示了模型代碼的核心部分之一,即 LLM 推理部分。他説,要在英特爾 Core Ultra 處理器上運行 Phi-3 和 LLM 推理很容易,只需要定義模型的名稱,定義量化配置、加載模型、加載標記器(tokenizer),然後提供一些示例,進行標記操作,對輸入進行標記,然後生成結果。而這一演示利用的優化版的 OpenVino,即 AI PC 的一種。

Tangri 表示,這就是 AI PC 與 LLM 共同運行的精彩表現。現實世界中的 AI 有四個支柱:效率、安全性、與網絡協作的能力,以及開發者準備度。如果你擁有前三者,但沒有為開發者做好準備,你將無法在這個平台上進行創新。

他表示,高效率指的是能夠延長設備的電池壽命,而不只是追求高每秒浮點運算次數(TeraFLOPS)的假象。“歸根結底,我們真正追求的是客户體驗和用户體驗,這涉及到將自然語言界面與圖形用户界面結合起來。所以,最終,我們追求的是體驗,而不是虛假的性能指標。”

Tangri 表示,英特爾過去幾年來已經和微軟合作創立標準,如開放神經網絡交換 ONNX(Open Neural Network Exchange) 的標準。而關於開發者的準備度,他表示,英特爾目前有一個前沿的尖端研究的運行演示,可以完全在 PC 環境中運行。“所以我們真正迎合了開發者的需求,降低了在我們的平台上創新的門檻,無需在線上和雲端使用,這一切都可以在你的 PC 上完成。”