首页 > 企业站 > 企业站_资讯眼> 正文

Couchbase数据库中加入了向量搜索

佚名 整合编辑: 王珂玥 发布于:2024-03-11 12:25

正如我们之前提到的,尽管人们这样谈论向量数据库,但它并不新鲜,事实上,它的起源可以追溯到几十年前。确切的时间取决于你问的是谁,但在过去的10年里,随着机器学习技术的发展,它们的受欢迎程度开始上升,现在,随着创新的爆炸式增长,大型语言模型和生成式人工智能的采用,似乎每个人都想从事向量数据库业务。

简而言之,向量就是新的JSON。

主要的云服务提供商,如亚马逊网络服务、微软Azure和谷歌云,都在他们无数的数据库服务中加入了向量搜索功能,而像Oracle、MongoDB、Snowflake和DataStax这样的老牌数据库制造商已经在他们的一些产品中提供了向量搜索功能。也有越来越多的小公司——比如Pinecone、Milvus、Chroma和Weaviate——提供开源向量数据库。

最近,Google Cloud和Couchbase都在其数据库产品中扩展了向量搜索功能。谷歌云去年宣布支持pgvector向量搜索功能,支持PostgreSQL的Cloud SQL和PostgreSQL管理的数据库的AlloyDB,并公布了更多数据库的向量搜索功能,包括Spanner、MySQL和Redis,以及与LangChain(一个用于创建基于语言的应用程序的框架)的更多集成。

Couchbase方面表示,它将在其Capella数据库即服务(DBaaS)和Couchbase服务器中引入向量搜索功能,使企业能够在本地、云中以及移动和物联网(IoT)设备的边缘使用向量搜索功能。这家NoSQL数据库供应商还增加了对LangChain和LlamaIndex的支持,以帮助开发人员使用大模型。

“对数据库来说,这意味着你必须支持向量搜索。”Couchbase负责产品管理和业务运营的高级副总裁Scott Anderson在接受The Next Platform采访时表示:“很明显,我们在发布这个公告时就是这么做的,我们的想法是,它是一个更大平台的一部分,是应用程序开发人员所需的一系列功能的一部分。因为它们需要不同的访问模式,或者它们正在编写不同类型的查询,所以您需要能够支持所有这些:KV用于亚毫秒级响应时间,更复杂的查询,可以通过普通查询完成,或者查询列数据库中的大型数据集。能够进行全文搜索、地理空间搜索和语义搜索都是关键功能。”

生成式人工智能推动了快速增长的市场

全球向量数据库市场预计将迅速扩大,从去年的15亿美元增长到2028年的43亿美元,这在很大程度上是由于法学硕士和机器学习的使用扩大,以及企业将开发和部署用于搜索、推荐和其他用例的高度个性化和自适应人工智能应用程序的泛滥。

组织可以使用向量数据库来存储和访问结构化和非结构化数据——比如文本、图像、视频和音频。向量嵌入通常是通过机器学习生成的,以赋予数据对象语义。相似的对象将具有相似的向量并且彼此位置更近,因此使用近似最近邻(ANN)算法的搜索提高了搜索器的速度和准确性。

“我们用的一个例子是:我想要一双和我的车颜色相配的蓝色鞋子。”Anderson说:“我想要这些品牌,阿迪达斯、耐克和ASICS,在这个价格范围内,离我家15英里以内,他们需要有这几个尺寸,他们需要有可用的库存。我给你一堆输入,我如何处理这些输入是在一个很宽的范围内。这是对库存的查询。它是地理空间服务,用于了解商店,以便能够找到库存。对蓝色进行向量化后,我上传了我的汽车照片,然后就可以进行向量化搜索,看看距离我要找的蓝色最近的车,这是基于价格的范围搜索。”

他说,企业正在与更具体的消费者打交道,他们在搜索中加入更多的上下文,以获得最佳结果。他补充说,这个例子说明了在应用程序层面的影响。“数据库必须能够提供这些功能,”他说。

引入向量搜索是Couchbase将人工智能功能引入Capella的最新举措。其中包括Capella iQ,这是一项由ChatGPT提供支持的人工智能云服务,开发人员可以在编写代码、索引和样本数据时,通过自然语言与之交互。在AWS Reinvent大会上,该公司在Capella推出了一项用于实时分析的柱状服务,目前还处于私下预览阶段。

所有搜索都在一个平台上

Anderson说,Couchbase希望通过在提供其他功能的平台上添加向量搜索服务来实现差异化,而不是提供单一用途的向量数据库。

他说:“使用单一用途的向量数据库面临的挑战之一是延迟,因为你试图将应用程序中的多个访问模式结合起来,以便能够返回结果。”“能够进入一个单一的数据平台,确保你的数据在整个平台上是一致的,数据被复制到所有节点。没有真正的延迟,因为我们做了内存到内存的复制。如果你有一堆单一用途的数据库,你要在这些数据库之间同步数据,你要使用多个api来访问数据,而不是在一个数据平台本身的单一调用中访问数据。”

在所有Couchbase产品中进行向量搜索,允许结合文本、向量、范围和地理空间搜索的相似性和混合搜索,检索增强生成(RAG)使人工智能软件更加准确和安全,并为所有搜索模式提供单一索引以减少延迟。

手机:下一个前沿领域

Anderson说,数据库公司(包括Couchbase)的关键在于适应人工智能快速发展的本质。随着人工智能领域的发展,新的模式和其他创新不断涌现,像Couchbase这样的供应商需要“愿意对你认为会起飞的技术进行一些押注”,同时保持开放平台和API的需求,使他们能够支持不断变化和发展的广泛生态系统。

“我们一直都有全文搜索,我们还添加了地理空间和一些查询。”他说:“我们的工程团队正在努力引入在JSON文档中有效存储向量的能力,创建这些索引的能力,然后能够在大规模的性能上做到这一点。”

Couchbase还希望将向量搜索带到移动和物联网设备的边缘,并计划将向量搜索引入Couchbase Lite,这是该供应商的嵌入式数据库。商业用户和个人将继续在他们的智能手机和其他移动设备上做更多的事情,更多的人工智能应用将朝着这个方向发展。

“我们的移动解决方案的一个独特之处在于,你可以访问所有数据,因为我们将这些数据保存在该设备上,而不管网络连接如何。”Anderson表示:“它在现场服务、零售等领域非常受欢迎。这揭示了更多的机会,不仅来自云,而且一直到边缘。我们讨论过的其中一个例子是用手机拍照的能力然后在此基础上创建嵌入然后能够在设备上搜索找到与各种图像最接近的匹配。你可以想象零售环境和许多其他环境。”

原文《COUCHBASE JOINS THE VECTOR SEARCH IN DATABASE FRAY》

网友评论

聚超值•精选

推荐 手机 笔记本 影像 硬件 家居 商用 企业 出行 未来
二维码 回到顶部