AI 时代的 “Killer App”,一文了解向量数据库是什么
东北证券表示,向量数据库一个很重要的功能是拓展大模型的边界,能够使得大模型 LLM 拥有 “长期记忆”,能够协助解决目前企业界最担忧的大模型泄露隐私的问题,同时多模态搜索也是向量数据库的拿手好戏。
最近,又一个概念火了——向量数据库。
首先是,4 月一个月内多家向量数据库创业公司获大额新融资,引发市场热议。
其次行情方面,龙头 A 股星环科技、北交所云创数据等股价连续异动,其中云创数据自底部以来股价已接近翻倍。
此外,8 日开始,分析师们 “后知后觉” 开始密集推出研报进行覆盖。
多家创业公司获大额新融资
据华福证券梳理,随着大模型带来的应用需求提升,4 月以来多家海外知名向量数据库创业企业传出融资喜讯。
4 月 28 日,向量数据库平台 Pinecone 宣布获得 1 亿美元(约 7 亿元)B 轮融资,由 Andreessen Horowitz 领投,ICONIQ Growth 等跟投。
4 月 22 日,向量数据库平台 Weaviate 宣布获得 5000 万美元(约 3.5 亿元)B 轮融资,由 Index Ventures 领投,Battery Ventures 等跟投。
此外,4 月 6 日 Chroma 获 1800 万美元种子轮融资,4 月 19 日 Qdrant 获 750 万美元种子轮融资。
什么是向量数据库?
据东北证券研报,向量数据库是专门用来存储和查询向量的数据库,其存储的向量来自于对文本、语音、图像、视频等的向量化。
同传统数据库相比,向量数据库不仅能够完成基本的 CRUD(添加、读取查询、更新、删除)等操作,还能够对向量数据进行更快速的相似性搜索,商业价值提升明显。
向量数据库有啥用?
东北证券指出,向量数据库一个很重要的功能是拓展大模型的边界,分为时间边界和空间边界。
第一,时间边界的扩展,指的是向量数据库能够使得大模型LLM拥有 “长期记忆”。
众所周知,目前的大模型(无论是 NLP 领域的 GPT 系列还是 CV 领域的 ResNET 系列)都是预先训练 Pretrain 的大模型,有着非常明晰的训练截止日 Cut-off Date,这导致这些模型对于训练截止日之后发生的事情一无所知。
而随着向量数据库的引入,其内部存储的最新的信息向量能够极大地拓展大模型的应用边界,向量数据库可以使得大模型保持准实时性,提高大模型的适用性,并使得大模型能够动态调整。也就是说,向量数据库使得大模型的长期记忆得到了可能。
例如,假设一个预训练的新闻摘要模型在 2021 年底完成了训练,到了 2023 年,许多新闻事件和趋势已经发生了变化。为了使大模型能够处理这些新信息,可以使用向量数据库来存储和查询 2023 年的新闻文章向量。
同样,在推荐系统中,预训练的大模型可能无法识别新用户和新产品的特征,通过向量数据库,可以实时更新用户和产品的特征向量,从而使大模型能够根据最新的信息为用户提供更精准的推荐。
此外,向量数据库还可以支持实时监测和分析。例如,在金融领域,预训练的股票预测模型可能无法获取训练截止日期之后的股票价格信息。通过将最新的股票价格向量存储在向量数据库中,大模型可以实时分析和预测未来股票价格走势。还有就是在客服领域,向量数据库将使得大模型可以追溯到对话的开始。
第二,空间边界的扩展,指的是向量数据库能够协助解决目前企业界最担忧的大模型泄露隐私的问题。
用户给出的 Prompt 可能会包含一些敏感信息。根据媒体报道,员工 A 用 ChatGPT 帮自己查一段代码的 bug,而这段源代码与半导体设备测量数据有关;员工 B 想用 ChatGPT 帮自己优化一段代码,就直接将与产量和良品率记录设备相关的一段代码输入了其中。
这些行为直接导致了三星关键数据的泄露,而 ChatGPT 本身其实也出现过隐私泄露事件,使得有一小部分的对话历史/支付数据会被其他用户查看,这些数据都极为敏感,而通过本地部署,向量数据库能够在很大程度上解决这个问题。
向量数据库本地部署后可以存储企业有关的大量隐私数据,在本地部署或者专有云部署大模型后,通过特别的 Agent 大模型可以在有保护的情况下访问向量数据库的隐私数据,进而可以在不向外网暴露公司的隐私的情况下,使得公司的业务得到大模型的助力。
此外,多模态搜索也是向量数据库的拿手好戏。
东北证券指出,向量数据库自带多模态功能,这意味着它能够通过机器学习方法处理和理解来自不同源的多种模态信息,如文本、图像、音频和视频等,数据向量化过程使得这些不同模态数据的内部隐藏信息得以暴露,进而为多模态应用提供支持。
一个典型的应用场景是多语言搜索,向量数据库支持跨语言的信息检索,用户可以使用英语、法语、中文等多种语言搜索图书库,而无需事先对书名进行多语言翻译处理。这得益于向量表示能够捕捉到语义相似性,使得来自不同语言的查询和内容能够相互匹配。
再一个,东北证券指出,即使不考虑需要 LLM 支持的边界拓展型应用和多模态搜索,近似搜索功能就可以给向量数据库带来巨大的商业化潜力。比如推荐系统、图像检索、语音识别和处理、生物信息学等。
市场空间巨大,行业处于从0-1阶段
东北证券指出,向量数据库市场空间巨大,目前处于从0-1阶段,预测到 2030 年,全球向量数据库市场规模有望达到 500 亿美元,国内向量数据库市场规模有望超过 600 亿人民币。
其认为,向量数据库是AI时代的Killer App。AI 时代一切 AI 化,而 AI 化的本质则是向量化,向量化计算成本高昂,海量的高维向量势必需要专门的数据库进行存储和处理,向量数据库应运而生,向量数据库在拓展 AI 全新应用场景的同时,也将对传统数据库产品形成替代,进而成为 AI 时代的 Killer App。
相关公司方面,全球范围内来看,目前向量数据库以初创公司为主,包括 Pinecone、Milvus、Weaviate、Vespa 等。
目前全球已有的向量数据库产品主要包括 Pinecone、Milvus、Weaviate、Vespa 等,其中超过 70% 的向量数据库选择了开源,超过一半的向量数据库具有云化部署的能力,大部分向量数据库产品在进行 ANN 相似性搜索时采用 HNSW(HierarchicalNavigable Small World)算法。