AI Sets off a New Wave? OpenAI Rushes to Release "Multimodal" Large Model before Google Gemini

據報道，OpenAI 正在積極趕在谷歌 Gemini 發佈前推出多模態大型語言模型（MLLM），即代號為 Gobi 的下一代大型語言模型，以擊敗谷歌並保持領先地位。

本以為谷歌會在 “多模態” 大模型方面首次佔據領先地位，該公司的集大成之作——Gemini 即將發佈，預計將於今年秋天首次亮相，據報道正在與選定的企業客户進行測試。

然而，OpenAI 又要來截胡了。

據媒體最新報道，OpenAI 正在積極努力將多模式功能（類似於 Gemini 預計提供的功能）納入 GPT-4，目標趕在 Gemini 發佈前推出多模態大型語言模型（MLLM），即代號為 Gobi 的下一代大型語言模型，以擊敗谷歌並保持領先地位。

隨着 ChatGPT 在各領域展現出非凡能力，多模態大型語言模型近來也成為了研究的熱點，它利用強大的大型語言模型（LLM）作為 “大腦”，可以執行各種多模態任務。

MLLM 展現出了傳統方法所不具備的能力，比如能夠根據圖像創作故事、視覺知識問答、無需 OCR（光學字符識別）的數學推理等，從自然語言理解到圖像解釋等，提供更廣泛的信息處理能力。

報道稱，OpenAI 早在 3 月份發佈 GPT-4 時就預先展示了這些功能，但除了一家名為 “Be My Eyes” 的公司外，沒有向其他公司開放。後者主要為有視力障礙或失明的人開發移動應用程序。六個月後，OpenAI 正準備在更大範圍內推出被稱為 GPT-Vision 的功能。

為什麼 OpenAI 花了這麼長時間才推出這項功能？報道稱主要是擔心新的視覺功能會被不良行為者利用，比如通過自動解決驗證碼來冒充人類，或者通過面部識別來跟蹤人們。但 OpenAI 的工程師們似乎接近於解決圍繞這項新技術的法律擔憂。

谷歌也面臨這個問題，當該公司被問及正在採取哪些措施來防止 Gemini 濫用時，谷歌發言人指出，該公司在 7 月份做出了一系列承諾，以確保其所有產品能夠負責任地開發。

然而，考慮到谷歌擁有與文本、圖像、視頻和音頻相關的專有數據（包括來自搜索和 YouTube 等平台的數據），該行業向多模態模型的發展可能會有利於發揮谷歌的優勢。一位使用過早期版本的人説，與現有的模型相比，Gemini 似乎已經產生了更少的錯誤答案。

OpenAI 首席執行官 Sam Altman 在最近的各種採訪中暗示，GPT-5 還沒有出現，但他們計劃對 GPT-4 進行各種增強，新的增強模型可能是其中之一。

報道稱，OpenAI 似乎還沒有開始訓練 Gobi，所以現在就説它最終會成為 GPT-5 還為時過早。

在上週接受《連線》雜誌採訪時，谷歌 CEO 皮查伊表達了他對谷歌目前在 AI 領域地位的信心，並認可技術進步的持久性，以及他們在平衡創新與責任方面深思熟慮的戰略。

無論如何，這場競賽就相當於人工智能版的 iPhone 與 Android。人們正屏息以待 Gemini 的到來，它將揭示谷歌和 OpenAI 之間的差距到底有多大。