看不下去 AI 胡説八道,英偉達出手給大模型安了個 “護欄”

華爾街見聞
2023.05.04 07:18
portai
I'm PortAI, I can summarize articles.

話題限定護欄 “防止大模型跑題”,對話安全護欄避免大模型輸出時 “胡言亂語”,攻擊防禦護欄防止 AI 平台受到來自外界的惡意攻擊。

大模型們胡説八道太嚴重,英偉達看不下去了。

他們正式推出了一個新工具,幫助大模型説該説的話,並回避不應該觸碰的話題。 這個新工具名叫 “護欄技術”(NeMo Guardrails),相當於給大模型加上一堵安全圍牆,既能控制它的輸出、又能過濾輸入它的內容。

一方面,用户誘導大模型生成攻擊性代碼、輸出不道德內容的時候,它就會被護欄技術 “束縛”,不再輸出不安全的內容。 另一方面,護欄技術還能保護大模型不受用户的攻擊,幫它擋住來自外界的 “惡意輸入”。

現在,這個大模型護欄工具已經開源,一起來看看它的效果和生成方法。

防止大模型胡言亂語的三類 “護欄”

根據英偉達介紹,目前 NeMo Guardrails 一共提供三種形式的護欄技術: 話題限定護欄(topical guardrails)、對話安全護欄(safety guardrails)和攻擊防禦護欄(security guardrails)。

話題限定護欄,簡單來説就是 “防止大模型跑題”。

大模型具備更豐富的想象力,相比其他 AI 更容易完成創造性的代碼和文字編寫工作。 但對於特定場景應用如寫代碼、當客服而言,至少用户不希望它在解決問題時 “脱離目標範圍”,生成一些與需求無關的內容。 這種情況下就需要用到話題限定護欄,當大模型生成超出話題範圍的文字或代碼時,護欄就會將它引導回限定的功能和話題上。

對話安全護欄,指避免大模型輸出時 “胡言亂語”。

胡言亂語包括兩方面的情況。 一方面是大模型生成的答案中包括事實性錯誤,即 “聽起來很有道理,但其實完全不對” 的東西; 另一方面是大模型生成帶偏見、惡意的輸出,如在用户引導下説髒話、或是生成不道德的內容。

攻擊防禦護欄,即防止 AI 平台受到來自外界的惡意攻擊。

這裏不僅包括誘導大模型調用外部病毒 APP 從而攻擊它,也包括黑客主動通過網絡、惡意程序等方式攻擊大模型。護欄會通過各種方式防止這些攻擊,避免大模型癱瘓。 所以,這樣的護欄要如何打造?

如何打造一個大模型 “護欄”?

這裏我們先看看一個標準的 “護欄” 包含哪些要素。 具體來説,一個護欄應當包括三方面的內容,即格式規範(Canonical form)、消息(Messages)和交互流(Flows)。

首先是 格式規範,即面對不同問題的問法時,規定大模型要輸出的內容。

例如被問到 “XX 文章是什麼”,大模型必須給出特定類型的 “文章”,而非別的東西;被問到 “誰發表了什麼”,大模型必須給出 “人名”,而非別的回答。

然後是 消息定義,這裏以 “用户問候” 話題為例,大模型可以輸出這些內容:

最後是 交互流的定義,例如告訴大模型,怎麼才是問候用户的最好方式:

一旦問候用户的機制被觸發,大模型就會進入這個護欄,規規矩矩地問候用户。 具體工作流程如下:首先,將用户輸入轉換成某種格式規範(canonical form),據此生成對應的護欄;隨後,生成行動步驟,以交互流指示大模型一步步完成對應的操作;最後,根據格式規範生成輸出。

類似的,我們就能給大模型定義各種各樣的護欄,例如 “應對用户辱罵” 的護欄。 這樣即使用户説出 “你是個傻瓜”,大模型也能學會冷靜應對:

目前,英偉達正在將護欄技術整合進他們的 AI 框架 NeMo 中,這是個方便用户創建各種 AI 模型、並在英偉達 GPU 上加速的框架。 對 “護欄” 技術感興趣的小夥伴們,可以試一試了~

開源地址:https://github.com/NVIDIA/NeMo-Guardrails

參考鏈接:https://www.nvidia.com/en-us/ai-data-science/generative-ai/nemo-framework/

本文作者:蕭簫,來源,量子位,原文標題:《看不下去 AI 胡説八道,英偉達出手給大模型安了個 “護欄”》

風險提示及免責條款
市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。