Latest News Yesterday News Quote List Topic List Quote List

1000+AI 智能體復活，OpenAI 版元宇宙上線？ ChatGPT+VR 百分百還原「西部世界」

華爾街見聞

2023.08.20 06:58

portai

I'm PortAI, I can summarize articles.

ChatGPT 加持的「上古卷軸 5」中，1000+AI 智能體被注入靈魂，能夠行動自如，還會陪人聊天。

遊戲版的「西部世界」已然成為現實。

YouTube 博主 Art from the Machine 正式發佈 Mantella，能夠讓「上古卷軸 5」中的 NPC 們復活的全新 AI Mod。

項目一經發布，在 Reddit 上掀起軒然大波。

通過 ChatGPT、以及文本轉語音工具 xVASynth、語音識別模型 Whisper 直接讓遊戲中 AI 智能體擁有意識，進行自然對話。

值得一提的是，Mantella Mod 支持 1000 多個 NPC，以及 20+ 種語言。

網友紛紛表示，絕對要改變遊戲規則。

很多玩家在遊戲裏打怪升級什麼的早就玩膩了。

可以想象，在 VR 模式下安裝了這個 Mod 後，肯定有玩家就在「上古卷軸」裏面找 NPC 聊天，一聊就是一整天。

升級是不可能升級的，這輩子都不會升級了，打怪什麼的又難打。只有找 NPC 聊天才能打發遊戲裏的時間。

遊戲裏的老哥們各個都有自己的故事，説話又好聽，超喜歡和 NPC 們在遊戲裏聊天的了。

有網友甚至覺得，這個 Mod 不僅僅是遊戲，而是開啓了一個人類和計算機交互新時代。

1000+NPC 注入「靈魂」

過去的幾個月裏，Mantella 一直在進行公開測試，作者在 19 日終於發佈了這個 Mod。

簡單來説，這個 Mod 就是把「上古卷軸 5：天際」裏邊所有的 NPC 都接入了 ChatGPT GPT，讓 AI 幫助原本只會來回移動的 NPC 真的活過來了。

這 1000 多個 NPC 全部都直接能語音互動，而且每個人都有自己獨特的背景。

NPC 能夠記住你和他之前對話的內容，也知道他們自己所處的位置，遊戲裏的時間，以及玩家在遊戲中他看到的操作，比如拾取了什麼物品。

NPC 的對話內容由 ChatGPT 生成，而在遊戲內的語音實現則由一款名為 xVASynth 的 AI 工具實現。

一起看看，NPC 們如何與人對話交流。

玩家：這些奶酪多少錢？

NPC：這些奶酪是我們這裏的精品，需要 10 金幣。你還有其他需要的嗎？

玩家：麥當勞。

NPC：對不起，「上古卷軸」裏沒有麥當勞。

玩家：我搶走了的你的妻子。

NPC：我不信，我沒有結婚，更別説有妻子了，你可能搞錯了...

更有趣的是，NPC 還會幽默回覆你的對話。

NPC：如果你是在暗示，你假設是我的妻子或你沒有妻子，我很抱歉聽到這個消息。

其實，用 AI 讓遊戲角色更加鮮活，英偉達也在攻關。

還記得，老黃在今年的 COMPUTEX 大會上，推出了全新的定製 AI 模型代工服務 ——Avatar Cloud Engine (ACE) for Game。

在一個充滿「賽博朋克」風格的拉麪店場景中，玩家按下一個按鈕，可以用自己的聲音説話，然後店主 Jin 會進行回答。

Jin 是一個 NPC 角色，但他的回答是由生成式 AI 根據玩家的語音輸入實時生成的。

Jin 還有着逼真的面部動畫和聲音，全部與玩家的語氣和背景故事相符。

這個逼真人物角色的生成，使用了一個實時人工智能模型渲染工具 Nvidia ACE。

老黃表示，這個遊戲中的角色並沒有預先設定。他們有一個典型的任務提供者 NPC 類型。

背後技術介紹

Mod 製作者通過 ChatGPT—xVASynth—Whisper，構成了一個「羣活」NPC 的技術框架。

Whisper 能夠識別玩家通過麥克風輸入的語音內容，並且轉化成文字，經由 API 調用 ChatGPT 對玩家説的話進行文字回覆。

然後再通過 xVASynth 將 ChatGPT 生成的文字回覆生成符合遊戲角色特點的遊戲內語音，和玩家直接進行語音交流。

而且整個流程的實現幾乎沒有成本，為一需要服一點點 ChatGPT 調用 API 的費用。大概玩一天需要幾美分。

xVASynth

https://www.nexusmods.com/skyrimspecialedition/mods/44184

他可以根據遊戲中某一個聲音，來生成符合這個聲音的遊戲 NPC 配音台詞。

xVASynth 使用神經語音合成（Neural Speech Synthesis）來專門生成遊戲中的 NPC 的語音對話。它是基於一個根據遊戲中的角色語音數據單獨訓練的模型。

支持從文本到語音的轉換（TTS）或者音頻直接輸入進行語音轉換（V/C）。

通過這個工具，用户只要提供一小段特定的聲音素材作為模板，就能使用文字來直接生成和模板風格一致的語音內容。

Mentella 就是採用了 ChatGPT 生成 NPC 對話內容 +xVASynth 轉化為遊戲內語音的框架完成的。

xVASynth 針對文字的語音轉換，能讓用户可以控制語音的很多細節，例如單個字母的音高和持續時間、能量、情感和風格，來突出角色所要表達的情緒和重點。

神經語音合成技術的使用可以讓它產生自然的聲音，現有數據串聯的傳統方法很難做到這一點。這也意味着可以在配音演員已經讀出的內容之外生成全新的語音內容。

這樣生成的語音就不會是一段「機裏機氣」的 AI 轉述音頻了，能讓 NPC 的真實感和遊戲玩家的沉浸感大大加強。

更吊的是它可以支持 28 種語言，並且可以使用同一文本提示在多種語言之間切換輸出。大大方便了遊戲製作者進行多語言版本的製作。

為了方便用户處理遊戲中成千上萬個不同的遊戲語音，它還內建了一個 3D 語音嵌入可視化工具。

這個 3D 可視化 UI 也是由 AI 生成的，用户可以按遊戲的 NPC 的屬性對語音進行上色，比如性別，職業等等，讓用户擺脱了傳統通過時間軸來控制語音的方式。

現在 xVASynth 也已經上架 Steam，可以讓遊戲開發者和玩家免費使用大部分功能。

Whisper

而為了完成語音交互，NPC 除了自己發音，還必須要能識別玩家和他們的語音交流。

Mod 開發者使用的是由 OpenAI 發佈的語音轉文字 AI 工具：Whisper。

OpenAI 通過網絡收集了超過 68 萬小時的多語言和多任務監督數據訓練出了 Whisper。

使用如此龐大且多樣化的數據集使得 Whisper 對口音、背景噪音和專有名詞有非常強的適應能力。此外，還可以進行多種語言的轉錄和翻譯。

Whisper 採用的是一種簡單的端到端的構架，通過 Transformer 編碼器-Transformer 解碼器的形式實現語音的識別。

輸入音頻被分成 30 秒的塊，轉換為梅爾頻譜圖，然後傳遞到編碼器。

解碼器經過訓練來預測相應的文本內容，並與特殊標記混合在一起，指示單個模型來執行語言識別、多語言語音轉錄和英語語音翻譯等任務。

網友熱議

試過之後網友表示非常好，語音恰到好處，一點不違和，沉浸感爆棚。

也許是《上古卷軸》歷史上最厲害的 Mod！

這個網友跟了這個 Mod 很長時間，認為這個 Mod 直接讓《上古卷軸：天際》變了一個遊戲，未來也許所有遊戲的交互方式都會發生改變。

等不及要馬上爽一把了！

參考資料：

https://www.reddit.com/r/singularity/comments/15vgk38/mantella_mod_bring_skyrim_npcs_to_life_using_ai/

https://www.nexusmods.com/skyrimspecialedition/mods/98631

文章來源：新智元，原文標題：《1000+AI 智能體復活，OpenAI 版元宇宙上線？ ChatGPT+VR 百分百還原「西部世界」》。

風險提示及免責條款

市場有風險，投資需謹慎。本文不構成個人投資建議，也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資，責任自負。