
百億美金的平台扳手腕,雲數據的生成式 AI 之爭

隨着企業對數據的依賴程度越來越高,Snowflake 和 Databricks 這兩家雲數據巨頭正積極的通過收購佈局,爭奪這個領域的心智和市場份額。
Snowflake 和 Databricks 一直是數據庫領域關注度非常高的兩家公司,雖然同在一個地盤,但各有特色,競爭一直沒有擺到枱面上。
而這一次的生成式 AI 浪潮,兩家公司非常積極的通過收購佈局,Snowflake 完成了對 Neeva(企業級 AI 搜索引擎)的收購,Databricks 13 億美金收購 MosaicML(ML 模型部署),並低調宣佈對 OmniML(模型壓縮)的收購。
兩家一改一直以來表面和睦、暗裏較勁的態勢,選擇同一天舉辦公司最重要的年會,亮明自家的生成式 AI 佈局,野心藏不住了。
Snowflake 2020 年上市,目前市值 579.2 億美金(2023.8.1),Databricks 還未上市,根據上一輪融資,其估值已達到 380 億美金。在生成式 AI 的加持下,Databricks 的估值/未來上市市值能否追上 Snowflake?Snowflake 又能否更上一層樓?
作為投資了 Snowflake 的基金 Madrona 的合夥人 Vivek 和投資人 Sabrina 分享了他們對兩家公司在生成式 AI 領域扳手腕的看法。
上週對數據和人工智能領域從業者來説是重要的一週,兩個最重要的參與者——Databricks 和 Snowflake——分別在舊金山和拉斯維加斯舉辦了他們的年度會議(Databricks 的 Data and AI Summit 和 Snowflake 的 Summit)。
這兩個巨頭決定在同一周舉辦他們的重要活動,這大概率不是巧合。在過去十年中,Snowflake和Databricks一直是朋友也是對手,但這一週明顯表明,它們現在是彼此的主要競爭對手,而新的戰場就是人工智能。
毫不奇怪的是,兩個會議上的討論和宣佈大部分都圍繞生成式人工智能。所傳達的重要信息是,為了建立生成式人工智能戰略,每家公司都必須從數據戰略開始。
不出所料,Databricks 和 Snowflake 都為自己為什麼可以在這一旅程中為客户提供最佳支持進行了論證。
兩家公司從價值鏈的不同部分開始,曾經甚至是戰略合作伙伴關係,為何在這個人工智能的新時代演變為如此激烈的競爭對手呢?
讓我們深入探討。
【快速免責聲明:Madrona 曾投資 Snowflake 的 C 輪,並仍持有該公司的一些股份。】
01Snowflake:從數據倉庫到數據雲
Snowflake 由Benoît Dageville和Thierry Cruanes於 2012 年創立。他們是兩位在 Oracle 工作多年的數據庫專家,他們敏鋭地觀察到大多數數據倉庫 “固化、昂貴且難以使用”。Dageville 和 Cruanes 與 Vectorwise 的前首席執行官 Marcin Zukowski 合作,構建了基於三個關鍵前提的未來數據倉庫:
1)完全基於雲的架構;
2)將計算與存儲分離,實現近乎無限擴展;
3)在計算資源使用上具有彈性,從而實現查詢處理和靈活性方面的前所未有的速度。
如今,Snowflake 已經從 “僅僅” 一個雲數據倉庫發展成為一個 “數據雲”,為客户提供訪問、構建、協作和變現其數據的單一平台。僅用十多年時間,Snowflake 已發展成為市值 550 億美元的上市公司,為 6000 多家客户和許多《財富》500 強企業提供服務。Snowflake 已與主要超大規模雲服務提供商(Azure、AWS 和 GCP)並肩作戰,現在他們明確將目光投向人工智能領域以贏得更多關注。
為了實現這一目標,他們在人工智能和機器學習領域進行了一系列收購和產品推出,包括:
1)Snowpark 允許數據科學家使用其首選編程語言進行端到端的機器學習工作負載開發、部署和編排。通過 Snowpark,客户可以攝取、分析和轉換其數據,以訓練機器學習模型和運行更多的預測性分析。
2)Streamlit 是一個數據驅動的應用程序構建工具,Snowflake 於 2022 年 3 月以 8 億美元收購。Streamlit 使客户能夠僅通過幾行代碼開發數據密集型應用程序。Streamlit 簡化了通過前端 Web 應用程序對數據分析任務和機器學習模型輸出進行上下文化的過程。
3)Neeva 是 Snowflake 今年早些時候收購的公司,旨在加速企業與數據的交互和搜索,尤其是以更具對話性的方式進行。
02Databricks: 構建Lakehouse
Databricks 成立於 2013 年,僅比 Snowflake 晚一年。與 Benoit 和 Theirry 是行業從業者不同,Databricks 是由一羣與學術界和開源社區有着深厚淵源的人士創立的。
包括現任 CEO Ali Ghodsi在內的七位創始人是 UC Berkeley 的 AMPLab 研究員,他們構思了 Apache Spark,這是一個用於大規模數據處理的開源統一分析引擎。Spark 已經發展成為最大且最常用的數據處理框架之一,在大規模數據工程、數據科學和機器學習方面起着重要作用。
Databricks 最初的目標是商業化 Spark,推出了企業級的 Spark 版本,提供了大型組織所需的所有功能(治理、支持、託管等)。Databricks 隨後發展成為創新的 “Lakehouse 平台”,統一了數據、分析和人工智能。統一的 Lakehouse 概念將 “集成、存儲、處理、治理、共享、分析和人工智能” 融合在一個平台上。
在過去的十年中,Databricks 已成為全球估值最高的私人公司之一,2021 年估值達到 380 億美元,並於近期實現了 10 億美元的收入里程碑。他們為成千上萬的企業客户和開源用户提供服務,並被視為最受矚目的 IPO 之一。在所有這些增長中,他們越來越將自己定位為人工智能領域的領導者,並最近進行了重要的收購和產品發佈,包括以 13 億美元收購 MosaicML(下文將更詳細介紹),並開源了 Dolly,這是一種以低於 30 美元的成本訓練的指令調優 LLM。
03 AI中的碰撞
Snowflake 和 Databricks 都有良好的生態位,可以繼續利用長期的結構性趨勢,因為企業正在為生成式人工智能的轉變做準備。隨着生成式人工智能應用的廣泛應用,這兩家公司都試圖將自己定位為戰略性的多產品數據平台。以下是各自會議中的一些重要公告以及我們對每家公司整體人工智能戰略的看法。
Snowflake主要公告:
開發者公告
1)Snowflake 的原生應用框架:通過允許開發人員創建、分發和變現應用程序,以新的方式利用數據,可基於 Snowflake 的數據雲擴展。
2)Snowpark 容器服務:擴展數據可編程性和計算基礎架構,以支持編程語言、訪問第三方軟件,併為託管全棧應用程序和 LLM 提供增強的安全性和治理。通過泛化 Snowflake 的計算平台,提供進一步的靈活性,使客户能夠從底層(數據層)一直到 UI 層運行完整的端到端應用程序。
3)其他重要公告:Snowpipe 流式處理功能;動態表格(也稱為材料化表格);Document AI(一項新服務,用於提取文檔中的非結構化數據);以及 Iceberg Tables。
合作伙伴公告Snowflake 宣佈NVIDIA、Microsoft和Weights & Biases等幾個重要合作伙伴。
1)與 NVIDIA 的合作計劃將其 NeMo 企業開發框架嵌入到 Snowflake 的數據雲中,這將使 Snowflake 的客户能夠構建和部署 LLMs 和基於人工智能的應用程序,利用存儲在 Snowflake 中的專有數據。
2)與 Microsoft 的合作將擴展與 Azure 的合作伙伴關係,重點是圍繞 Microsoft Azure 的 OpenAI 和 Azure AI/ML 服務進行新產品整合。該合作有可能將工作負載和客户引入數據雲。
3)與 Weights & Biases 這家領先的 MLOps 平台的合作,Snowflake 的容器服務使 Weights & Biases 能夠加速在 Snowflake 數據雲中進行 ML 模型、LLMs 和 LLM 驅動應用的迭代開發。最終,這項合作將幫助企業和用户更輕鬆地構建和利用生成式人工智能。
4)除了這兩家公司,Snowflake 還宣佈了與 Alteryx、Hex、Dataiku、RelationalAI、Pinecone 等公司的許多其他合作伙伴關係。
我們的看法
直到最近,Snowflake 沒有透露任何在現有能力上添加生成式人工智能的計劃,許多投資者對 Snowflake 在這個領域(尤其是與 Databricks 相比)的競爭能力表示擔憂。然而,在 2023 年的峯會上,Snowflake 展示了一個強大的願景,將自己定位為可信賴的數據雲提供商,並以此打造了一個與生成式人工智能相關的強大故事。
Snowflake 與 Nvidia 的合作,以及 Snowpark 容器服務的宣佈,使他們在 AI 數據堆棧中成為一個更具可行性的參與者。他們想傳達的核心觀點是,他們可以讓客户在 Snowflake 數據雲中安全地訪問、開發和部署 LLMs 和基於人工智能的應用程序,同時提供 Nvidia GPU 和 AI 軟件的加速計算。
雖然他們的故事和傳遞的信息令人印象深刻,但我們認為他們在人工智能領域相對於 Databricks 仍然處於劣勢狀態...

Databricks主要公告:
開發者公告
1)LakehouseIQ:基於 LLM 的自然語言接口,用於搜索和查詢數據,並強大地理解客户的數據、內部行話和使用模式,以瞭解客户的架構、文檔、查詢、系統等。
2)LakehouseAI:Databricks 在 Databricks ML 方面宣佈了許多新功能,包括一些關於 LLMOps 的能力,例如整合數據、為機器學習準備數據集、微調和策劃機器學習模型,以及部署模型本身。Databricks 還宣佈了關於向量搜索、特徵服務和 MLFlow Gateway 的許多功能。
3)MosaicML:就在峯會開始之前,Databricks 宣佈以 13 億美元收購 MosaicML,該收購在峯會期間定位為 “構建 GenAI 模型的機器”。
4)其他值得注意的公告:Delta Lake 3.0、MLFlow 2.5 支持不同後端 LLMs、Lakehouse Apps 和 Databricks Lakehouse Monitoring 智能監控。
我們的觀點
Databricks 通過將數據、人工智能模型、監控和治理能力整合到 Lakehouse 平台中,採取了統一的人工智能方法。因此,Databricks 使客户能夠更高效地開發他們的 GenAI 解決方案,並且客户認為 Databricks 是一個值得信賴的合作伙伴,平均而言,在機器學習開發方面更快速、更經濟、更易於使用。
雖然 Databricks 已經被視為人工智能堆棧中的關鍵參與者,但通過對模型(如 Dolly,一個開源的指令跟隨 LLM)的投資以及對 MosaicML 的重大收購,Databricks 在 GenAI 領域鞏固了其領導地位。Databricks 繼續強調他們的 Lakehouse 是 GenAI 初創企業訓練和部署自己的人工智能模型的最佳方式,以成本效益的方式利用自己的專有數據,而不受大型科技公司的束縛。
04展望未來,我們可以期待什麼呢?
儘管生成式人工智能的熱潮已經持續了 8 個多月,但過去一週明確表明,Snowflake 和 Databricks 正在展開競爭,爭奪這個領域的心智和市場份額。那麼,我們可以對這種加劇的競爭有哪些期待?
1.收購將繼續進行→ Snowflake 和 Databricks 都相對有良好的生態位來繼續收購與其整體戰略相輔相成的小公司。Snowflake 在其資產負債表上擁有約 40 億美元的現金,而 Databricks 則擁有可用於交易的高估值。同時,數百家 AI 和數據工具初創企業渴望在乾旱的 IPO 市場找到出口。我們不認為 Neeva 和 MosaicML 會是這些巨頭最後一次收購,市場將出現整合。
2.客户將受益→ 在 Snowflake 和 Databricks 之間逐漸升級的競爭中,最明顯的贏家應該是他們的客户。這兩家巨頭正在快速為他們的平台添加新穎的產品和服務,構建 “一站式商店”,供客户構建數據應用程序並利用 LLMs。這種平台增強將有助於民主化訪問人工智能,並讓數據科學家、數據工程師和人工智能從業者能夠更有意義地進行合作。
3.Azure和AWS將賺取更多的利潤→ 隨着 Snowflake 和 Databricks 繼續在 AI 市場上進一步擴張,它們將需要大量的計算能力,主要由 Azure 和 AWS 提供。數據工程師 Anant Packidurali 敏鋭地觀察到這一點。與 Nvidia 在 AI 中受益一樣,為 Snowflake 和 Databricks 的計算需求提供基礎設施的超大規模雲服務提供商無論誰在 AI 競爭中獲勝,都將獲得利益。
隨着企業對數據的依賴程度越來越高,以支持其生成式人工智能戰略,我們相信 Snowflake 和 Databricks 都處於良好的位置,可以利用這一代的轉變。儘管它們來自價值鏈的不同部分,並且它們的關係在過去十年的發展中發生了變化,但它們現在正處於一場獎勵巨大的競賽中。
本文作者: Vivek Sabrina,來源:硅兔賽跑,原文標題:《百億美金的平台扳手腕,雲數據的生成式 AI 之爭》
