
AI 時代的 “Killer App”,一文了解向量數據庫是什麼

東北證券表示,向量數據庫一個很重要的功能是拓展大模型的邊界,能夠使得大模型 LLM 擁有 “長期記憶”,能夠協助解決目前企業界最擔憂的大模型泄露隱私的問題,同時多模態搜索也是向量數據庫的拿手好戲。
最近,又一個概念火了——向量數據庫。
首先是,4 月一個月內多家向量數據庫創業公司獲大額新融資,引發市場熱議。
其次行情方面,龍頭 A 股星環科技、北交所雲創數據等股價連續異動,其中雲創數據自底部以來股價已接近翻倍。
此外,8 日開始,分析師們 “後知後覺” 開始密集推出研報進行覆蓋。
多家創業公司獲大額新融資
據華福證券梳理,隨着大模型帶來的應用需求提升,4 月以來多家海外知名向量數據庫創業企業傳出融資喜訊。
4 月 28 日,向量數據庫平台 Pinecone 宣佈獲得 1 億美元(約 7 億元)B 輪融資,由 Andreessen Horowitz 領投,ICONIQ Growth 等跟投。
4 月 22 日,向量數據庫平台 Weaviate 宣佈獲得 5000 萬美元(約 3.5 億元)B 輪融資,由 Index Ventures 領投,Battery Ventures 等跟投。
此外,4 月 6 日 Chroma 獲 1800 萬美元種子輪融資,4 月 19 日 Qdrant 獲 750 萬美元種子輪融資。
什麼是向量數據庫?
據東北證券研報,向量數據庫是專門用來存儲和查詢向量的數據庫,其存儲的向量來自於對文本、語音、圖像、視頻等的向量化。
同傳統數據庫相比,向量數據庫不僅能夠完成基本的 CRUD(添加、讀取查詢、更新、刪除)等操作,還能夠對向量數據進行更快速的相似性搜索,商業價值提升明顯。
向量數據庫有啥用?
東北證券指出,向量數據庫一個很重要的功能是拓展大模型的邊界,分為時間邊界和空間邊界。
第一,時間邊界的擴展,指的是向量數據庫能夠使得大模型LLM擁有 “長期記憶”。
眾所周知,目前的大模型(無論是 NLP 領域的 GPT 系列還是 CV 領域的 ResNET 系列)都是預先訓練 Pretrain 的大模型,有着非常明晰的訓練截止日 Cut-off Date,這導致這些模型對於訓練截止日之後發生的事情一無所知。
而隨着向量數據庫的引入,其內部存儲的最新的信息向量能夠極大地拓展大模型的應用邊界,向量數據庫可以使得大模型保持準實時性,提高大模型的適用性,並使得大模型能夠動態調整。也就是説,向量數據庫使得大模型的長期記憶得到了可能。
例如,假設一個預訓練的新聞摘要模型在 2021 年底完成了訓練,到了 2023 年,許多新聞事件和趨勢已經發生了變化。為了使大模型能夠處理這些新信息,可以使用向量數據庫來存儲和查詢 2023 年的新聞文章向量。
同樣,在推薦系統中,預訓練的大模型可能無法識別新用户和新產品的特徵,通過向量數據庫,可以實時更新用户和產品的特徵向量,從而使大模型能夠根據最新的信息為用户提供更精準的推薦。
此外,向量數據庫還可以支持實時監測和分析。例如,在金融領域,預訓練的股票預測模型可能無法獲取訓練截止日期之後的股票價格信息。通過將最新的股票價格向量存儲在向量數據庫中,大模型可以實時分析和預測未來股票價格走勢。還有就是在客服領域,向量數據庫將使得大模型可以追溯到對話的開始。
第二,空間邊界的擴展,指的是向量數據庫能夠協助解決目前企業界最擔憂的大模型泄露隱私的問題。
用户給出的 Prompt 可能會包含一些敏感信息。根據媒體報道,員工 A 用 ChatGPT 幫自己查一段代碼的 bug,而這段源代碼與半導體設備測量數據有關;員工 B 想用 ChatGPT 幫自己優化一段代碼,就直接將與產量和良品率記錄設備相關的一段代碼輸入了其中。
這些行為直接導致了三星關鍵數據的泄露,而 ChatGPT 本身其實也出現過隱私泄露事件,使得有一小部分的對話歷史/支付數據會被其他用户查看,這些數據都極為敏感,而通過本地部署,向量數據庫能夠在很大程度上解決這個問題。
向量數據庫本地部署後可以存儲企業有關的大量隱私數據,在本地部署或者專有云部署大模型後,通過特別的 Agent 大模型可以在有保護的情況下訪問向量數據庫的隱私數據,進而可以在不向外網暴露公司的隱私的情況下,使得公司的業務得到大模型的助力。
此外,多模態搜索也是向量數據庫的拿手好戲。
東北證券指出,向量數據庫自帶多模態功能,這意味着它能夠通過機器學習方法處理和理解來自不同源的多種模態信息,如文本、圖像、音頻和視頻等,數據向量化過程使得這些不同模態數據的內部隱藏信息得以暴露,進而為多模態應用提供支持。
一個典型的應用場景是多語言搜索,向量數據庫支持跨語言的信息檢索,用户可以使用英語、法語、中文等多種語言搜索圖書庫,而無需事先對書名進行多語言翻譯處理。這得益於向量表示能夠捕捉到語義相似性,使得來自不同語言的查詢和內容能夠相互匹配。
再一個,東北證券指出,即使不考慮需要 LLM 支持的邊界拓展型應用和多模態搜索,近似搜索功能就可以給向量數據庫帶來巨大的商業化潛力。比如推薦系統、圖像檢索、語音識別和處理、生物信息學等。
市場空間巨大,行業處於從0-1階段
東北證券指出,向量數據庫市場空間巨大,目前處於從0-1階段,預測到 2030 年,全球向量數據庫市場規模有望達到 500 億美元,國內向量數據庫市場規模有望超過 600 億人民幣。
其認為,向量數據庫是AI時代的Killer App。AI 時代一切 AI 化,而 AI 化的本質則是向量化,向量化計算成本高昂,海量的高維向量勢必需要專門的數據庫進行存儲和處理,向量數據庫應運而生,向量數據庫在拓展 AI 全新應用場景的同時,也將對傳統數據庫產品形成替代,進而成為 AI 時代的 Killer App。
相關公司方面,全球範圍內來看,目前向量數據庫以初創公司為主,包括 Pinecone、Milvus、Weaviate、Vespa 等。
目前全球已有的向量數據庫產品主要包括 Pinecone、Milvus、Weaviate、Vespa 等,其中超過 70% 的向量數據庫選擇了開源,超過一半的向量數據庫具有云化部署的能力,大部分向量數據庫產品在進行 ANN 相似性搜索時採用 HNSW(HierarchicalNavigable Small World)算法。
