<blockquote>
<p>夢晨 發自 凹非寺<br/>量子位 | 公眾號 QbitAI</p>
</blockquote>
<p>GPT-4 識圖功能遲遲不開放，終於有人忍不住自己動手做了一個。</p>
<p><strong>MiniGPT-4</strong>來了，Demo 開放在線可玩。</p>
<p>傳一張海鮮大餐照片上去，就能直接獲得菜譜。</p>
<div><img src="/wp-content/uploads/replace/48e4c58a3ac63f3bf6752cbc4c48dd02.gif" original-src="/wp-content/uploads/replace/48e4c58a3ac63f3bf6752cbc4c48dd02.gif"/></div>
<p>傳一張商品效果圖，就可以讓 AI 寫一篇帶貨文案。</p>
<div><img src="/wp-content/uploads/replace/e1466eda54b1c46e2a002850a569d9d3.gif" original-src="/wp-content/uploads/replace/e1466eda54b1c46e2a002850a569d9d3.gif"/></div>
<p>手繪一個網頁，可以給出對應的 HTML 代碼</p>
<div><img src="/wp-content/uploads/replace/44b6a6eea2f44488d620b0abfc10179f.gif" original-src="/wp-content/uploads/replace/44b6a6eea2f44488d620b0abfc10179f.gif"/></div>
<p>除了生產力拉滿，也支持根據常識推理圖上內容是否合理、解釋表情包為什麼好笑，以及看截圖找電影等娛樂玩法。</p>
<div><img src="/wp-content/uploads/replace/ebfeff8881a705b020592966b4adfd98.png" original-src="/wp-content/uploads/replace/ebfeff8881a705b020592966b4adfd98.png"/></div>
<p>可以説，GPT-4 發佈時展示過的功能，MiniGPT-4 基本也都有了。</p>
<p>這下網友直接把 Demo 服務器擠爆，開發團隊連開 4 台備用服務器，都有幾十人在排隊。</p>
<div><img src="/wp-content/uploads/replace/c0d067b07d44e607b244d683a3021e7b.jpeg" original-src="/wp-content/uploads/replace/c0d067b07d44e607b244d683a3021e7b.jpeg"/></div>
<h1>不等 OpenAI 了，現在就能玩</h1>
<p>除了研究團隊給出的示例，網友也用 MiniGPT-4 玩出了各種花樣</p>
<p>有人上傳自己畫的畫，讓 AI 評價評價。</p>
<div><img src="/wp-content/uploads/replace/850fec17bf8f032e5032121cc89d05fd.png" original-src="/wp-content/uploads/replace/850fec17bf8f032e5032121cc89d05fd.png"/></div>
<p>有人上傳一張從車道拍攝的飛機墜毀瞬間，讓 MiniGPT-4 儘可能詳細地描述，並思考自動駕駛 AI 能不能理解這個場面。</p>
<div><img src="/wp-content/uploads/replace/651126a373d89dbdcc656cbb345565a0.png" original-src="/wp-content/uploads/replace/651126a373d89dbdcc656cbb345565a0.png"/></div>
<p>做到這麼好的效果，MiniGPT-4 實現起來卻並不複雜。</p>
<p>把圖像編碼器與開源語言模型 Vicuna（小羊駝）整合起來，並且凍結了兩者的大部分參數，只需要訓練很少一部分。</p>
<p>傳統預訓練階段，使用 4 張 A100 在 10 個小時內就可完成，此時訓練出來的 Vicuna 已能夠理解圖像，但生成能力受到很大影響。</p>
<p>為解決這個問題，團隊讓 MiniGPT-4 與 ChatGPT 合作創建了 3500 個圖像文本的高質量數據集，也一併開源。</p>
<p>用新的數據集微調可以顯著提高模型的生成可靠性和整體可用性，而且計算效率很高，使用單個 A100 只需要 7 分鐘。</p>
<div><img src="/wp-content/uploads/replace/14eced24341f387d9fd413019added66.png" original-src="/wp-content/uploads/replace/14eced24341f387d9fd413019added66.png"/></div>
<p>並且團隊正在準備一個更輕量級的版本，部署起來只需要 23GB 顯存。</p>
<p>也就是消費級顯卡中擁有 24GB 顯存的<strong>3090 或 4090</strong>就可以本地運行了。</p>
<p>MiniGPT-4 開發團隊來自 KAUST（沙特阿卜杜拉國王科技大學），包括 4 位華人成員和他們的導師 Mohamed Elhoseiny。</p>
<div><img src="/wp-content/uploads/replace/8006b10ff1c1071662a197c1658c50a2.png" original-src="/wp-content/uploads/replace/8006b10ff1c1071662a197c1658c50a2.png"/></div>
<p>兩位正在讀博的共同一作還在 GitHub 頁面上特別標註<strong>正在找工作</strong>。</p>
<p>有意向的公司要抓緊搶人了～</p>
<p>在線 Demo：<br/>https://minigpt-4.github.io</p>
<p>開源代碼：<br/>https://github.com/Vision-CAIR/MiniGPT-4</p>
<p>論文：<br/>https://github.com/Vision-CAIR/MiniGPT-4/blob/main/MiniGPT_4.pdf</p>

<p>看美食寫菜譜，手繪網頁變代碼</p>

華人團隊迷你 GPT-4 搶跑看圖聊天：OpenAI 有的它都有，服務器已被擠爆