成立即 “準獨角獸”,騰訊投資的這家 AI 企業有何本事?

華爾街見聞
2023.04.06 05:10
portai
I'm PortAI, I can summarize articles.

出生即 “準獨角獸”,手握騰訊投資 、業務合作阿里雲,這家備受關注的雲原生數據庫公司終於在閉關鑽研兩年多後,發佈了新一代產品。在與全天候科技的對話中,創始人解答了外界的種種疑惑。

作者 | 張超 編輯 | 羅麗娟

出生即 “準獨角獸”,手握騰訊投資 、業務合作阿里雲,到底哪家企業有這個本事?

答案是拓數派(英文名:OpenPie),一家於 2021 年在杭州成立的雲原生數據庫企業。

過去兩年間,這家公司鮮少披露產品或業務進展。但據官方資料,拓數派天使輪就獲得了來自騰訊的投資;9 個月後,公司又獲得了來自元禾重元、東吳證券的 Pre-A 輪加持,身價隨之上漲。而資本對公司未來估值預期,可能達到上百億元。

究其原因,與創始團隊核心成員的背景有着密不可分的關係。

據瞭解,公司創始人、董事長兼 CEO 馮雷曾以浙江物理奧賽銀牌的成績進入北大物理學院,攻讀物理、經濟學雙學位;之後進入全美人工智能專業多次排名第一的卡內基梅隆大學(CMU),攻讀研究生,與前百度首席科學家吳恩達、前百度副董事長陸奇等成為校友。

拓數派創始人、董事長兼 CEO 馮雷

拓數派合夥人兼 CTO 郭罡則畢業於中國科學技術大學少年班,有超過 18 年底層基礎軟件領域開發經驗;公司合夥人兼 COO 陸公瑜畢業於英國約克大學,有超 15 年產品生態建設和運營管理經驗。

值得注意的是,三人都曾是 GreenPlum 產品及社區的核心成員,馮雷還曾是 Pivotal 中國創始人兼總經理。

眾所周知,Greenplum 是分佈式數據庫的全球領導者,原本隸屬於美國 Pivotal 公司,隨着 2020 年的一場併購,才成為 VMware 全新產品和服務組合 VMware Tanzu 的一部分。而 Pivotal 在業內久負盛名,主要提供 PaaS 雲原生應用開發平台及服務。其厲害之處在於,擁有多個在軟件和雲計算領域舉足輕重的開源項目。飛魚研投盤點了一下 Pivotal 旗下的開源項目,包括 Spring、cloud foundry、RabbitMQ、Greenplum 等。

這樣一家企業的核心技術成員創業,獲得資本青睞似乎也就不足為奇。

閉關鑽研兩年多後,今年 3 月 14 日,拓數派發布了基於新一代雲原生數倉虛擬化技術,打造全新 PieCloudDB“雲上雲” 版。

據馮雷介紹,新一代雲原生數倉虛擬化技術,可將多個數倉統一整合到一個高可用的雲虛擬數倉,打通多雲的數據管道,從而讓數據計算資源按需擴縮容,以提升數倉的敏捷性和彈性。

拓數派新一代雲原生數倉虛擬化技術

舉例來説,一家企業有 100 個數倉(數據集羣),每個數倉可能要用 100 台服務器,總共需要 10000 台服務器。實際運行時,很多計算資源會閒置,服務器負載可能不到 30%。如果把 100 個物理數倉變成 100 個虛擬數倉,計算的時候啓動,不計算就不啓動,就可以把服務器縮減到 3000 個。

不僅如此,原本 100 個物理數倉之間存在數據隔閡,互相無法訪問,現在把數據放到公有云上,可以通過授權另一個數倉使用數據。

數倉虛擬化技術的核心價值就在於,能夠數量級降低數倉硬件和維護成本、打開數據計算資源利用空間。

為了保障數據安全,拓數派還採用了以靈活敏捷、降本增效等特點著稱的 eMPP(Elastic MPP,彈性大規模並行計算)分佈式專利架構。

相較於傳統的 MPP 架構,eMPP 架構是基於雲計算平台誕生的,能夠實現存算分離,即在存儲側可單獨進行計算或者存儲資源的擴展,避免了企業對集羣進行擴容時,因計算資源和存儲資源的綁定而造成的資源浪費;在計算側可以利用計算節點池,按需擴容和縮容,靈活根據業務和數據量變化來動態調整。

新一代數倉虛擬化技術利用 eMPP 架構,可以實現多集羣併發執行任務,讓企業靈活進行擴縮容,隨着負載量變化實現彈性伸縮,以應對 PB 級海量數據。

目前,拓數派基於阿里雲構建的公共雲數據倉庫服務已經正式上線。

數理背景出生的馮雷,一直是個 “萬物皆數” 的狂熱擁躉,是圖靈核心思想的踐行者之一,儘管其初衷是為了證明圖靈理論的錯誤。他痴迷於用數學邏輯解決社會學問題,用邏輯運算和算數運算模型回答萬事萬物的源頭性問題。

在馮雷看來,這套數學模型思維的美妙之處就在於可預測,“使得一切非常可控”,即便有不可控的部分,也能比別人多一個抓手。

事實上,馮雷算不得一個典型的商人,他並不想讓拓數派成長為有上萬名員工的大企業,也沒有急着實現業務盈利,更沒有奔着百億估值狂飆。

馮雷是個骨子裏帶着點浪漫色彩的理想主義者。在他看來,拓數派就是自己的一次實踐探索,是其和創始團隊在做的一個無限遊戲。而之所以叫 “拓數派(OpenPie)”,就因為π是一個無理數,可以一直計算下去。

關於數倉虛擬化技術的突破點、拓數派的業務模式、創始人的思維邏輯等更多詳細問題,馮雷近期與全天候科技一一都進行了分享。

以下是對話主要內容(經全天候科技編輯整理):

“數倉虛擬化技術” 可能是里程碑事件

全天候科技:拓數派發布的數倉虛擬化產品,突破性在哪裏?對行業影響有哪些?

馮雷:它可能是我們團隊程碑式的事件。

講產品邏輯可能比較難解釋,用服務器虛擬化打比方,大家都能接受。

以前在服務器虛擬化之前,一個典型的企業裏大概有上千台服務器,每台服務器都有自己的操作系統。

服務器虛擬化就是把這 1000 台服務器變成一個虛擬服務器,然後硬件共享,服務器都沒有本地硬盤,存儲用共享存儲模式。這 1000 台服務器全部虛擬成 1000 個操作系統文件,少數硬件上可能把 1000 台服務器縮減到 300 台,因為企業裏大部分服務器的負載不到 30%,這意味着 70% 是閒置的。

把物理服務器變成虛擬服務器,硬件可能只用了 300 台服務器,成本減少是一方面,更大的好處是軟件跟硬件脱離。一旦底層服務器壞了,虛擬服務器很容易從硬件遷移到硬件用户,中間無感知。

軟件跟硬件分離就是行業突破。

對比數倉虛擬化,就是企業通常有 100 個數倉,可以簡單理解為 100 個集羣,每個數倉可能多到 100 台服務器,總共可能是 10000 台。其中很多計算資源也是閒置的,大部分負載不到 30%。我們把 100 個物理數倉變成 100 個虛擬數倉,計算的時候啓動,不計算就不啓動,就可以把服務器縮減到 3000 個。

成本降低是一方面,對於每一個服務器來説,當其它服務器不用時,這 3000 台服務器可以獨佔,可使用計算資源空間會增大。

更重要的是,這 100 個虛擬數倉原本數據之間有隔閡,互相無法訪問,現在把數據放在底下,可以授權另一個數倉,這樣計算空間就會增大、成本縮小。

全天候科技:服務器虛擬化帶來的物理成本減少大概有多少?

馮雷:我們預計可能有兩類場景,一類是大機構,比如銀行、券商等,有 10 個以上集羣,我們可以把物理成本減少三分之一,數據計算空間增大 10 倍;

另一類是小企業,我們鼓勵他們上公有云、跟雲廠商合作,傳統的企業自己在公有云上租 5 台服務器,一年 20 多萬元,但虛擬數倉不啓動就不算錢。企業假設有 2 個 T 的數據放在公有云上,費用就只有幾千塊,虛擬數倉使用的時候再算錢。

全天候科技:這樣會不會影響雲廠商的收入?

馮雷:對於雲廠商而言,我們提供了增值服務。假設帶來 1000 家企業,每家一年存儲 2T 數據,相當於拓數派給阿里帶來了流量和收入;企業啓用數倉虛擬服務器,我們也會付錢給雲廠商,是雙方共贏的局面。

全天候科技:拓數派和中小企業之間是什麼關係?

馮雷:數倉虛擬服務技術是將存儲和計算分開,實現了技術突破。企業之前沒有使用這款雲原生虛擬倉產品,沒法真正享受數據計算帶來的紅利。現在有了技術,大家都能上雲,企業還能以更低的成本實現存算資源在雲上更靈活的配置,對所有人都有好處。

全天候科技:數倉虛擬化系統服務雲上所有企業的時候,如何滿足差異化需求?

馮雷:拓數派的魅力就是一家基礎軟件公司,數倉虛擬化技術本質上接口是標準的,對所有企業一個樣,屬於基礎設施軟件。不一樣的地方,可能是應用場景的差異。我們跟各行各業打交道,也會形成一些預製方案給到合作伙伴,但行業領導者們還是喜歡自己做。比如,券商核心競爭力就是股票定價模型, 它不可能把這個模型給到我們。

全天候科技:數倉虛擬化技術由拓數派首次提出,只有拓數派可以做嗎?為什麼不能是其他更有實力背景的企業做出來?技術難點是什麼?

馮雷:我們有自身的特點,人要做自己擅長的事情。

拓數派的團隊背景是來自於 Pivotal,而 Pivotal 是雲原生的提出方,虛擬化是 VMware 的提出方。我們吃這碗飯吃了將近 20 年,熟了。無他,惟手熟爾。我們 CTO 是中科大少年班,團隊清華、北大、奧賽獎牌得主都有。40 多人的研發團隊,這個畫像已經很厲害了。

大公司要做的是雲平台,到每一個項目上人數其實有限;而且大公司不會跟所有人競爭,與外部企業永遠是競爭與合作的關係。

當初我剛創建 Greenplum 中國的時候,他們創始人就説過一句話,“有錢是一方面,有文化是另外一方面”,文化傳承很重要。

我跟中國投資人也説,如果錢能解決問題,明天就可以造一個斯坦福出來,但這顯然不行。因為斯坦福經過了 100 年的迭代,有自己獨一無二的文化,孕育出一代又一代人;我來自 CMU,CMU 在人工智能領域孕育了一代又一代人,背後文化很抽象,但是符合一方水土養一方人。

全天候科技:CMU 帶給你最大的收穫是什麼?

馮雷:CMU 是人工智能誕生地,不僅在理論探索方面有獨創性,理論與實踐組合的體系也比較少見。最早的無人駕駛越野車等項目,CMU 研究團隊都是世界最領先。CMU 不像一些學術機構簡單發一篇論文就結束了,而是真正有實際的產品落地。

全天候科技:純理論教育和理論與實踐結合式教育,對技術突破有什麼不同影響?

馮雷:這是近 20 年發生的比較大變化。很多公司設有專門的研究機構,但今天發現這些研究機構的研發力量還不如一些產品團隊,因為產品迭代太快、產業迭代太快。一個純粹的學術機構發一篇論文,然後只能申請贊助;但是產品團隊有創成果,就能得到更多資本認可。

ChatGPT,微軟一共投了 100 億美元,哪個學術機構能跟它 PK?

這也帶來了一個巨大的問題,傳統意義上發明一個物理裝置,推廣到全世界最起碼需要幾年時間;但今天數字世界一秒就可以推廣到全世界,它迅速把紅利回收後能獲得更大投資,輪子越滾越快。

不過數字力量對於財富再分配的問題確實需要進一步探討,要不然就是贏者通吃。

全天候科技:這個情況已經出現。

馮雷:而且有越滾越快趨勢。

微觀經濟學講,企業的目標就是追求利潤最大化;但今天可能這麼説不對,因為贏者通吃實在是有問題在裏面。所以,現在機構強調商業化的同時,也強調 ESG。

拓數派成立的第一天,我們就設立了一個平行機構——1024 數字產業基金會,它是非盈利機構。

全天候科技:未來在國內或國外,多久可能出現一個類數倉虛擬化技術的產品?

馮雷:其實國外有兩家公司,可能有這個能力。

為什麼他們不推虛擬數倉的概念?因為不想強調服務器虛擬化這件事情,但這個概念對中國私有云用户已經深入人心了,大家知道服務器虛擬化帶來的所有好處,對大家有百益而無一害。

“我們的目標是,先把成本固定住”

全天候科技:拓數派創辦於 2021 年,天使輪就獲得這些有實力背景的投資人支持,核心原因是什麼?

馮雷:其一,是大勢所趨。通過新的基礎計算設施改進來產生深度智能化設施這件事,有些人停留在好奇層次,有些企業在盈利層次,甚至可能是戰略層次。一些有識之士看到這方面需要,就進行了投入和部署。

其二,是稀缺性。能夠承接這個任務、有成功履歷或者證明過成功的團隊,在國內數量非常有限。兩點綜合考量,大家就比較容易促成這件事情。

這次想通過跟國內戰略投資機構和一些 PE 基金合作,嘗試一些前面沒有做過的東西,感覺時間點到了。

全天候科技:當時只有騰訊找你們聊,阿里沒有嗎?

馮雷:接觸的都是很有戰略眼光的投資機構或者政府機構。

我們不想花太多時間在這方面討論,所以當時聊得並不多,只跟兩三家機構接觸過。大家如果意向上願意做,我們就儘可能把時間放在 “做” 這個事情上。

全天候科技:拓數派拿的是騰訊投資,但註冊在杭州。

馮雷:業務方面,我們是跟阿里雲存儲團隊有戰略合作。國內投資界的視野上升很快,並沒有簡單商業利益上膚淺地切割開。

全天候科技:研發團隊目前是什麼規模?投入有多少?

馮雷:現在總體超過 40 人,碩士比例佔 70%,博士比例佔 10%。研發投入都是國際水平,已經超過我在 Greenpulm 中國最高時候的投資了。科創板喜歡研發比例高的企業,我們保證是科創板裏數一數二的水平,配置實際上相當於研究機構。

全天候科技:拓數派目前的商業模式包括哪些?

馮雷:公有云部分,就是三方運營的 Pass 服務模式。比如,我們與阿里雲的合作,把機會給到用户,阿里也願意帶我們。這個運營模式相對比較輕,是比較互聯網的商業模式,用户自己開賬號、自己把數據傳進去、自己計算;我們給用户計費賬單、收用户錢,跟阿里雲結算資源消耗費用。

這必須技術過硬,確保拓數派從阿里拿過來的資源對用户有效率提升,否則用户直接去找雲廠商服務更便宜了。

公有云上也有大客户,相對來説是一個長尾市場,但這個市場也令人非常期待;一旦做起來,復購率、市場佔有率都會很高。這個市場在中國的公有云領域做起來還需要時間,但我們需要佔位。

目前私有云部分,是拓數派與大客户直接合作,收費像傳統的軟件模式,即給到客户軟件許可後每年收取費用;另一種行業雲,類似 OEM 模式,他們賺錢我們分成。總體來説,就這三類商業模式 。

全天候科技:目前公司整體處於盈利狀態嗎?

馮雷:還沒有。去年 10 月 24 日,拓數派才推出私有云、行業雲方案;今年 3 月 14 日,推出數倉虛擬化技術。我們的目標是,先把成本固定住。

因為拓數派是研發非常重的一家公司,市場發展非常依賴合作伙伴,頭部企業還會找事前事後團隊貼身服務。我們儘量以樹立標杆客户為目標,標杆起來後,我們會把同一套方法教給合作伙伴,希望這套技術不僅僅讓幾家公司獲利,而是我們的生態合作伙伴都能從中獲利。

全天候科技:拓數派沒有盈利壓力?

馮雷:雖然我們前兩期投資是傳統意義上 VC 階段的投資,但股東主要是產業基金,產業基金是用戰略性的眼光來看企業發展。

但是再往後的投資,最終投資方還是要以上市為目標。所以,我們去年也開始推進商業化,把商業化當做公司的重點來做。

全天候科技:可能在哪部分客户上實現盈利?

馮雷:對我們來説,收支平衡並不難。

假設成本固定住,我們每年就只要花這麼多錢。投資人開玩笑説,我們手裏就像有個印鈔機,因為用户自己會傳數據,不需要我們幹什麼,就能生錢。但這個機器是我控制不了的,市場發展的時候,它可能突然運作起來,而且是一個指數級分佈增長。

另一方面,我們私有云的目標客户畫像很清楚,可以跟他們一起合作。但我們也不太可能把全中國的市場份額都拿下,整個市場大概有 500 多億元,私有云、公有云對半開是 250 多億元,我們只要佔個 5%,就差不多 10 個億了。

資本對公司未來估值預期可能是上百億元。

全天候科技:按照你的計劃,2023 年公司整體成本會得到控制?

馮雷:成本我們會控制。商業化去年做了一些,今年收入會繼續增大,希望儘快能看到一個收支平衡的情況。

全天候科技:有一個上市計劃時間表嗎?

馮雷:我們做 Pivotal 這家公司的時候,只花了 5 年不到就上市。

當然,人家董事長水平高,我們水平稍微差一點(笑)。拓數派已經創業兩年,我想未來三年如果能實現收支平衡,那麼科創板會比較喜歡(我們)。科創板本身是允許虧本企業上市的,但我們還是以收支平衡為目標。

這就是 “專精特新” 的一個好例子,我沒有目標把企業做到 1 萬個人,但是希望能影響人工智能整個學科的進展。

“我和團隊核心人員一直在做無限遊戲”

全天候科技:為什麼選擇放棄 Pivotal 高薪職位,從零開始創立拓數派?

馮雷:其實我和團隊核心人員做的事情其實一直沒有中斷,就叫無限遊戲。

我從 CMU 畢業以後就在甲骨文做數據庫,後來回國創建 Pivotal 中國,負責 Greenplum 產品。隨着 Greenplum 事業的深入,當時做了很多風控模型、徵信模型、推薦模型,我們越來越對數學模型產生興趣,認為這種探索很有價值。

我們發現雲上有一個新機會,即利用更多的存儲資源、打破數據之間的隔閡,就可以讓運營商有更多計算資源、更多數據,然後這個模型可以想象能產生更好結果。

對我們來説,做這件事不是一個艱難的決定,但需要有突破式創新或者破壞式創新;按照教科書理論,最好是重新設立一個機構來做。

《創新者的窘境》(The Innovator's Dilemma)這本書上有個觀點,如果創新是連續性的,建議待在大公司裏接着做;如果是突破式、破壞式的創新,要推倒很多前面做過的事情,一般鼓勵設立新的機構。可能是個研究機構,可能是家新公司。

我們很自然地捕捉到了新機會,創立一個新機構,所以得到了頭部互聯網產業基金,以及很多國內 PE 資本,甚至國資的支持。

全天候科技:你之前接受採訪時提過,更願意用數學邏輯解決社會學問題,思考源頭性問題。在技術研究上,數學邏輯和符號邏輯解決問題時的差異是什麼?

馮雷:其實不是我説的,是 “計算機科學與人工智能之父” 艾倫·圖靈説的,一台機器(圖靈機)能模擬人類所能進行的任何思維計算過程,本質上這些思維過程都可以拆解成邏輯運算和算數運算。

人工智能學科就是儘可能把這些定義做成邏輯運算或算數運算的模型。

全天候科技:所以你一直支持圖靈的觀點?

馮雷:我其實是想證明他錯,所有人都想證明他錯,但是給不出一個反例。

全天候科技:你接觸這個理論以前,就一直用數學邏輯思考問題的嗎?

馮雷:我進 CMU 以後才開始這麼思考。確實 CMU 沉浸在人工智能世界裏,也進行了很深層次對人類認知的思考。

全天候科技:數學模型式思考邏輯總是很嚴謹規範,也相對嚴肅刻板,在處理計算問題可能比較合適。但在解決生活問題、組織管理問題,接觸與人相關的問題時,這套模式能運行得通嗎?你一般怎麼思考這類問題?

馮雷:很對,目前人的行為或者説人跟人之間的社會行為是沒有辦法很精準地用 AI 模型來描述。

即使今天的計算機視覺識別有時候也會出錯,臉識別不出來,ChatGPT 也會説錯話。這個過程它就是個無限遊戲,只能無限逼近它。

但是有沒有一種可能性,在某一個階段點突然打開了另外一扇窗,發現外面有個廣闊世界,這就有很大的好奇心在驅動。

全天候科技:聽下來,你在運用這套思維模式的過程中還沒有遇到難點?

馮雷:它的美妙之處就在於可預測。

比如以一個老闆心情很古怪,你就不願意跟他相處;但好的老闆不在你身邊,你也知道他大體上會怎麼反饋。

數學化物理這套方法使得一切非常可控,説一不二,説一個自由運動的小球在幾秒鐘出現在什麼位置,它就出現了,是不是很神奇?

全天候科技:你怎麼處理不可控的事情?

馮雷:我嘗試着建立一套模型拆解成邏輯和算術運算,然後去讓模型落地。至少從不可控中能找出一些可控,其他不可控就不可控了,我至少比別人多一個抓手,讓不可控變成可控。