Midjourney:偉大的公司只需要十一人

華爾街見聞
2023.04.26 02:09
portai
I'm PortAI, I can summarize articles.

在生成式 AI、雲計算等技術逐漸抹平大企業與中小企業之間的技術、成本差距後,各企業真正比拼的,只剩下人才、創意與執行力。

目前,隨着 AI 技術的快速迭代,各種基於 AIGC(人工智能內容生成)技術的產品不斷湧向社會,而其中最普遍的,則莫過於大量的 AI 繪圖模型,如 Midjourney、Dreambooth、Novel AI 和 Stable Diffusion 等。

雖然 AI 繪圖領域,看似進入了百花齊放的時代,但目前業內的頂流,仍然是 Midjourney 和 Stable Diffusion 為代表兩大龍頭。

今年 4 月,Midjourney 進一步宣佈推出針對二次元、動漫風格的繪圖模型 Niji-journey V5。

這一模型與以往最大的不同,就是它能 “取代” 高級原畫師了。

憑藉着出眾的造型張力和色彩使用、以及豐富的風格化表現力,Niji V5 不光看傻一眾吃瓜羣眾,甚至驚豔了業內畫師,讓人直呼其已經具有了大師插畫的味道。

之所以能夠如此質變,一大原因在於相較此前版本,Niji V5 支持了風格化(stylize)參數設置。

簡而言之,在該版本下,用户只需使用風格化命令,就能引用不同藝術家設計風格產出圖片。

在 Niji V5 的助力下,人們輕易地生成了許多 “大師級” 的作品。

Niji V5 產出圖片的品質相當優秀,幾乎覆蓋市面上的常見風格。在此基礎上,使用者只需要微調設計,基本能夠達到大部分優秀高級原畫的工作需求。

如此出色的技術,不禁讓人對其背後的 Midjourney 公司產生了強烈的興趣。

實際上,雖然 Midjourney 和 Stable Diffusion 同為當前 AI 繪畫的兩大領軍者,但其當下的境遇卻有着天壤之別。

Stable Diffusion 背後的明星公司——Stability AI,目前正面臨嚴重的財政困境,由於沒有明確的盈利途徑,公司正面臨倒閉的危機。

相較之下,Midjourney 卻運行得風生水起,憑藉着付費訂閲的商業模式,Midjourney 不僅獲得了每年 1 億美元的營收,並且在 Discord 上已經積累了 1000 多萬用户。

同為開發繪畫 AI 的團隊,Midjourney 是怎麼取得今天的成就的呢?

01 延伸人類想象力

雖然 Midjourney 在不融資的情況下就實現了盈利,但從創建的背景來看,創始人大衞·霍爾茨(David Holz),並不像那種鑽進錢眼裏的人。

他為 Midjourney 設立了一個非常不 “銅臭” 的宗旨:AI 不是現實世界的復刻,而是人類想象力的延伸。

而這樣充滿科幻色彩的宗旨,和大衞的背景、經歷有着很大的關係。

MidJourney 的創始人大衞·霍爾茨

作為一個數學專業的博士生,大衞曾在大學期間研究激光雷達、大氣科學和火星任務,可謂是一個涉獵甚廣,且充滿好奇心的 “怪才”。

經過了廣泛的探索後,大衞似乎找到了自己真正的興趣所在,於是,在 2010 年便創立了一家研發手部跟蹤技術為主的公司——Leap Motion。

然而,由於與之相關的 VR/AR 技術一直不成熟,Leap Motion 也始終沒能做出有具體應用場景的產品。

大衞之前研發的手部追蹤產品

最終,2019 年,大衞把 Leap Motion 公司賣給了競爭對手 Ultrahaptics。隨後,他成立了一個工作室來探索新的機會,恰巧在這時,AI 在生成藝術方面取得了突破。

Transformer 架構的出現,徹底改寫了圖像合成的歷史。從此,多模態深度學習整合了 NLP 和計算機視覺的技術,成為圖像合成的藝術方法。

於是,藉着生成式 AI 的東風,大衞創建了 Midjourney。

公司團隊成員僅 11 人,其中 1 位創始人、8 位研發人員、1 位法務、1 位財務。

在公司的構成中,完全沒有產品經理、市場銷售人員,除了創始人、兩個支持性崗位(法務、財務),80% 的人員都是研發人員。

而作為中堅力量的研發成員,一半(4 位)都是尚未畢業的本科生。

雖然這四位本科生都有一些實操甚至是創業經歷,但是確實經驗有限,而且也非畢業頂尖名校。

剩下來的幾位研發人員,都有着比較豐富的職業經歷。

在聚攏人才後,大衞也進一步明確了自己對於 Midjourney 的理念。

大衞將公司 Logos 設計成了一艘在波浪中航行的帆船,意為水既危險,又是文明的驅動力。

懂得如何與水一起生活和工作的人類,將有能力在水中游泳、做船、築壩發電,從而更好的生活,因此,大衞認為 AI 是人類想象力的引擎。

然而,在當時生成式 AI 的競爭格局上,有這類 “雄心壯志” 的團隊,可不只 Midjourney 一家。

例如 Stable Diffusion 的母公司 Stability.AI,在創立時也聲稱要將自己的使命定格為成為世界領先的開源 AI 公司,併發揚將 AI 共享於全世界的理念。

然而,口號喊得震天響,理念終歸是不能當飯吃的啊。

情懷滿滿的大衞,之後是怎麼解決一系列公司融資、盈利的問題的呢?

02 開源 VS 閉源

從今天來看,Midjourney 的盈利模式看上去十分簡單,即通過付費訂閲的商業模式,按月向用户收取費用,其標準有 3 種套餐,分別是 10/30/60 美元/月。

不過,這樣的模式要想行得通,得解決兩大關鍵問題:

1.憑什麼讓用户產生付費的意願?

2.大模型訓練所需要的高昂成本怎麼解決?

先來説説第一點,實際上,當 AI 圖像生成技術開始方興未艾之時,很多使用者並不覺得這種技術是需要 “付費” 的。

原因就在於,當時像 Stable Diffusion 這樣的行業龍頭,為了吸引大量的開發者,最大程度的把模型用起來,因此採取了開源的模式。

和 Dall·E、Midjourney 不同,Stable Diffusion 是完全免費、不限次數、任何人都可用的。

雖然對硬件有着一定要求,但也能在幾秒鐘內生成高清圖像。

這樣的好處在於,開源社區會齊心協力地完善模型文檔,共同解決技術難題。這使得代碼的迭代速度非常快,優化效率遠遠高於閉源系統。

但缺點也很顯而易見,那就是商業化不夠直接,可能為別人 “做了嫁衣”。

而相較之下,Midjourney 卻採用了不那麼開放的 “閉源系統”。

如果説閉源系統真的有什麼好處,那就是針對性更強了。

因為模型閉源,並通過龐大的用户量積累了獨有的數據集,可以根據用户需求不斷地針對性訓練模型,長期來看更有利於建立競爭壁壘。

在探索用户需求這點上,大衞採取了產品上線後邊測試邊改進的辦法。

例如 Midjourney 模型最開始很慢,需要 20 分鐘才能出一張高質量的圖片。後來團隊推出了一個做 15 秒生產圖片,但是質量沒那麼高的版本,

經過多輪測試,團隊瞭解到,速度和質量其實都只是表象,因為不同用户的選擇,實際上是多維度的。

在針對用户需求進行調整後,無論是創意行業設計者,還是普通愛好者,都能通過 Midjourney 滿足自身的繪畫需求。

除了瞭解用户需求外,在使用流程方面,Midjourney 也並不像 Stable Diffusion 需要本地部署,操作十分便捷,對顯卡和硬件性能也幾乎沒有要求。

雖為閉源,但 Midjourney 在使用難易度上,卻更像一個 “親民” 的大眾產品。

於是,Midjourney 獲得大量用户後,養成了用户使用習慣,且在開啓付費訂閲後就進一步加強了用户粘性。

03 算力難題

剛才提到,Midjourney 在硬件方面,對用户幾乎沒什麼要求。而這樣的原因,則是由於 Midjourney 所有的圖片都是在雲上完成並訓練的。

但如此龐大的雲計算量,必然需要高昂的成本,這就回到了剛才的第二個問題:

在沒有融資的情況下,在雲上進行大模型訓練所需要的高昂,該成本怎麼解決?

實際上,大衞解決這個問題的方式很簡單,也很不可思議。

當大衞需要找到一個雲供應商提供 10,000 個 GPU 時,他直接給雲供應商的負責人發了封電子郵件,結果對方就直接給到了這些資源,完全不需要風險投資。

看到這兒,也許有人驚得下巴都掉了,這種事在現實中真的可能嗎?

當然,供應商並不是抽風了,而是看中了大衞之前的成就和聲譽。

大衞之前的創業已經獲得了聲譽,大衞打從創辦 Leap Motion 的時候起就有一個觀點,他覺得技術的最大限制不是規模、成本或速度,而是人們如何與之互動。

Leap Motion 的手勢互動是一個嘗試,到了 Midjourney 這裏,他開始使用更短的繪畫關鍵詞(prompt)來催動 AI 產出。

這樣的理念,吸引了每一個瞭解大衞的人,也讓他得到了雲供應商的支持。

然而,在獲得了供應商的鼎力支持後,大衞也仍然要面對算力捉襟見肘的問題。

從成本來説,Midjourney 大約 10% 的雲成本用於訓練,90% 是用户製作圖像的推理。所以幾乎所有的成本都在製作圖像上。

為解決這一點,Midjourney 在世界上八個不同的地區,設立了自己的服務器,比如韓國、日本或荷蘭等,在每個時區的夜間,當地人都在睡覺,沒有人使用 GPU。Midjourney 就可以充分利用這些算力,實現 GPU 負載平衡。

實際上,這種依靠雲端服務器來降低成本、加快模型訓練的做法,與目前騰訊訓練大模型的策略十分相似。

在算力已經愈發成為大模型訓練瓶頸的今天,如果在訓練開發環節,直接調用雲端的大模型和 AI 算力資源,完成後一鍵分發到用户終端上,就可以大大降低成本,減少工作量。

因此,Midjourney “雲上計算” 的這一步棋,着實是摸準了時代的方向。

互聯網的演進之路,已經説明,無論 To B 還是 To C 行業,都在追求越來越集約精簡的終端硬件、越來越低門檻的交互入口、越來越輕盈的軟件應用。

所以説,大模型從雲入端,是模型服務商實現商業化的必爭之地。

04 總結

從 Midjourney 看似不可思議的創業經歷,我們可以發現,在這次 AIGC 時代的浪潮中,能夠脱穎而出的企業、團隊,未必是財大氣粗的頭部大廠。

因為在生成式 AI、雲計算等技術逐漸抹平大企業與中小企業之間的技術、成本差距後,各企業真正比拼的,只剩下人才、創意與執行力。

而這也是為什麼, Midjourney 這類僅有寥寥十幾人的小團隊能脱穎而出的原因。因為這樣依靠少數尖端人才組建的團隊,具有大企業所沒有的靈活性、創見和魄力。

而這類小團隊的創意、靈感,若要真正在市場、社會中紮下根,就離不開對用户多樣化、個性化需求的追蹤。

這是因為,AIGC 技術的 “泛用性”,決定了其絕不是針對某一行業、人羣,或是某一類企業的技術。

只有在這多樣化的需求中,儘可能地滿足不同層級用户的特定需求,一款產品才能真正地具有長遠的生命。

既服務所有人,又不忽視每一個特殊的人,這或許就是 Midjourney 成功的最大原因。

本文作者:舉大名耳,來源:AI 新智能,原文標題:《Midjourney:偉大的公司只需要十一人》

風險提示及免責條款
市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用户特殊的投資目標、財務狀況或需要。用户應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。