昨天,腾讯云重新定义了向量数据库

摘要:未来企业之间的竞争将更加集中在数据上,谁能够更好地利用数据,谁就有可能在未来的竞争中取胜。而看好AI,就应该看好向量数据库,这是腾讯云的逻辑。——腾讯云数据库副总经理罗云

昨天,腾讯云在北京召开发布会,宣布重新定义向量数据库,并发布了国内首个AI原生的向量数据库Tencent Cloud VectorDB。

先来快速了解下腾讯云重新定义向量数据库的思考维度:

昨天,腾讯云重新定义了向量数据库

图片来自,发布会现场拍摄。

腾讯云提出,向量数据库不仅应该支持自然语言查询,更应将AI算法深度融合至计算层、存储层和数据库引擎中,从而提升AI原生应用的开发效率。

关于腾讯云对向量数据库的重新定义,你有什么看法?在老鱼看来,是具有创新性的,该定义把AI与数据库技术深度融合,涉及到自然语言查询,以及深度结合AI的数据算子和存储优化,这些都为处理大规模非结构化数据带来了新的可能性。

此次重新定义的价值表现在两个方面。首先,这提供了一种全新的AI应用开发解决方案。通过自然语言查询和AI算法的深度结合,可以极大提高开发效率。其次,利用存储优化和AI的辅助,可以显著降低存储成本并提高数据处理效率。

向量数据库及其核心工作原理

在ChatGPT火起来之前,可能90%的吃瓜群众都不知道向量数据库为何物?如今,如果你还不知道向量数据库,那就out啦。因为,几乎所有由大语言模型(LLM)驱动的 AI产品或技术都使用了向量数据库,向量数据库是AI的基础设施。

那么,向量数据库究竟是什么?通俗地讲,是一种帮助机器学习模型在海量数据中找到相似样本的技术。这可能听起来有些抽象,那就让老鱼用一个例子来解释一下。

假设一个图书馆就是一个数据库,而书就是数据库中的数据。在传统的数据库中,我们通过书名、作者、出版日期等关键词去搜索我们想要的书籍。这个过程类似于我们在数据库中通过关键词检索需要的数据

然而,向量数据库的运作机制又是怎样的呢?在一个”向量”图书馆中,假设你不仅想找到一本特定的书,你还想找到所有和这本书类似的书,例如内容、风格、主题都相似的书。这在传统图书馆中可能是一项极具挑战的任务,因为这需要逐一浏览和对比每一本书的内容。

然而,在”向量”图书馆中,每本书都会被转换成一个向量,它像书的指纹,包含了书的所有特征信息。然后,我们可以通过计算这些向量之间的距离或相似度,找到与特定书最相似的其他书籍。这就是向量数据库的核心工作原理。

例如, “I like to eat pizza” 这句话,在我们人类的眼中极为简单,但在计算机眼中,它会被解构成每一个单词对应的向量。如下:

昨天,腾讯云重新定义了向量数据库

有趣的是,语义相似的句子会对应到相似的向量。就像我们经常玩的魔方,可以通过转动、找到与目标向量近似的向量。

在现实中,向量数据库被广泛应用在AI和机器学习领域,特别是在处理和查询大量高维向量数据的场景,如人脸识别,语音识别,商品推荐等等。通过向量数据库,我们可以在海量数据中,快速有效地找到相似的向量,从而提高检索的效率和精度。这种能力不仅极大地推动了AI技术的实用化,也使得我们的生活变得更加便捷和个性化。

向量数据库与大模型、生成式人工智能的逻辑关系

我们再来看一看向量数据库与大模型以及生成式人工智能的逻辑关系。

应用开发者如何使用向量数据库和大模型处理和查询过程?通常,这个过程包括文本分割、Embedding转换、向量存储、问题查询、向量检索、最后到大模型的推理。

老鱼尽量把复杂的技术讲得简单一些,向量数据库就像是一个拥有极为丰富藏书的图书馆,大模型则好比一位拥有专业图书馆管理员,总能在海量的书籍中迅速找到读者所需的信息。而生成式人工智能,就像是一位敏捷的作家,能基于图书馆中已有的信息创作出全新的作品。

腾讯云重新定义了向量数据库的概念,他们认为向量数据库不仅是一个数据的存储库,同时也是一种关键的训练工具。

这个定义的核心在于,向量数据库能显著提升生成式人工智能的输出质量,同时拓宽了大模型的时间和空间边界,解决了大模型对于新信息的无知和可能的隐私泄露问题。

众所周知,现在的大模型,如GPT-4,其训练数据截止日期是2021年9月,那么对于此后的事情,它是一无所知的。然而,向量数据库有能力存储最新的信息,从而填补这个漏洞。

同时,通过在本地存储向量数据,向量数据库能有效地防止了大模型可能导致的隐私泄露风险,这无疑是今天许多企业和组织极为关心的问题。

腾讯云向量数据库能不能打?

评估一个向量数据库能不能打,通常需要考量多个关键因素:性能、可靠性、易用性、扩展性、成本效益,以及AI和机器学习的集成等。

1、性价比:向量数据库应当保证良好的性能,同时尽量降低存储和计算成本。

2、成熟度与可靠性:一个高质量的向量数据库应该提供稳定可靠的服务,即使在面临大规模并发查询时也能保持高可用性,并且在硬件出现故障时能够保证数据的持久性。

3、易用性:一个高质量的向量数据库应该是简单易用的,包括简单快速的数据插入、查询和删除流程,同时提供易于理解和使用的API。此外,对于各种常见的数据格式和编程语言的支持也是必要的。

4、AI和机器学习的集成:对于AI原生向量数据库,其是否能够深度集成AI和机器学习算法,并提供丰富的AI功能,也是评价其成败的一个重要指标。

……

接下来,让我们看一下腾讯云Tencent Cloud VectorDB展示的一些核心亮点数据

高吞吐:最高支持10亿级向量检索规模, 相比单机插件式索引规模提升10倍;具备百万级每秒查询(QPS)的峰值能力;

低延迟:P99响应延迟20ms

高可用:基于腾讯集团大规模运营积累,日均处理万亿次请求,现网运营可用性指标达到99.99%

弹性扩展一站式向量检索数据库 :Embedding+检索集成方案,数据嵌入AI效率提升10倍

向量化能力(embedding):多次获得权威机构认可,2021年曾登顶MS MARCO榜单第一、相关成果已发表于NLP顶会EMNLPACL。

低成本:将腾讯云向量数据库用于大模型预训练数据的分类、去重和清洗相比传统方式可以实现10倍效率的提升,如果将向量数据库作为外部知识库用于模型推理,则可以将成本降低2—4个数量级。

……

这些指标意味着怎样的水平?90%的吃瓜群众可能没有概念,那就让我们深入解析一下。

腾讯云数据库副总经理罗云接受老鱼采访时,他表示,Tencent Cloud VectorDB在业界处于已经位居第一梯队领先位置,其性能和谷歌的AI检索引擎相媲美,,远超一些开源的解决方案。比如:简单的FAISS库应用可能在数十万到百万级别,而插件式+单机能够达到几百万,到亿级别就比较少了。

罗云进一步表示,Tencent Cloud VectorDB在接入层支持自然语言查询,在计算层,通过AI算子替代企业寻找/调优AI算法,将接入工期从1个月缩短到3天。在存储层,融合智能压缩算法,把向量存储成本降低50%。

在接受采访时,罗云还分享了一份有趣的数据:与传统流程相比,使用Tencent Cloud VectorDB可以实现10倍的性能提升。在传统开发流程中,AI应用的开发者需要花费大量时间进行数据处理、模型选取、向量化等步骤。而在Tencent Cloud VectorDB的帮助下,这些步骤可以大大简化,使开发者可以在更短的时间内完成工作。

罗云对向量数据库的市场前景表达了乐观的看法,随着AI技术的快速发展,他预计向量数据库有望在NoSQL领域或整个数据库领域占据重要的位置。

最后,对于Tencent Cloud VectorDB的目标客户,罗云表示主要是需要使用大模型和处理大量数据的企业,特别是那些在AI,机器学习,搜索和推荐系统等领域有大量应用的公司。

而Tencent Cloud VectorDB的出现,无疑为这些企业提供了一种新的选择。从性能、可靠性和成本效益来看,Tencent Cloud VectorDB有明显优势。那么,腾讯云向量数据库能否吸引大量的企业用户,从而改变现有的云数据库市场竞争格局,我们拭目以待。

文/老鱼

申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!

© 版权声明
THE END
喜欢就支持一下吧
点赞12
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称

    暂无评论内容

随即推荐
安卓虚拟摄像头,替换视频秒推直播-铁虎资源网

安卓虚拟摄像头,替换视频秒推直播

支持视频替换支持RTMP直播替换【应 用 名 称】:VCAMSX【应 用 版 本】:1.1.1【应 用 大 小】:34.67M
test29571644的头像-铁虎资源网test2957164428天前
03111
小红书电商自媒体创富课2.0版-铁虎资源网

小红书电商自媒体创富课2.0版

《小红书电商自媒体创富课2.0版》专为希望通过小红书平台实现自媒体创收的学员设计。课程内容涵盖小红书账号搭建与运营策略、内容创作与排版技巧、社群管理与用户互动、品牌合作与变现模式、数...
别偷我白米饭的头像-铁虎资源网别偷我白米饭4天前
0419
蓝天数据采集发布系统源码v2.9-铁虎资源网

蓝天数据采集发布系统源码v2.9

蓝天采集器是一款数据采集发布软件,可部署在云端服务器,几乎能采集所有类型的网页,无缝对接各类CMS建站程序,免登陆实时发布数据,软件实现定时定量全自动采集发布,无需人工干预!是大数据...
test722079的头像-铁虎资源网test7220799天前
02011
SOOP_v8.7.4 韩国热门直播平台-铁虎资源网

SOOP_v8.7.4 韩国热门直播平台

SOOP前身为AfreecaTV,是韩国首个互动直播平台。2024年完成更名,涵盖游戏、生活、音乐、体育等多元直播内容。全球版支持多语言服务,泰国用户占比大,为观众带来丰富直播体验!
DustyBeato的头像-铁虎资源网DustyBeato7小时前
03412
短剧h5源码免费下载,内嵌API接口,含9999+短剧资源-铁虎资源网

短剧h5源码免费下载,内嵌API接口,含9999+短剧资源

免费[color=var(–comiis-color)]短剧H5下载源码,内置[color=var(–comiis-color)]短剧API接口,直接上传到网站根目录即可运行 源码解压到网站根目录即可使用,无需其他配置!! 开...
孙佳音的头像-铁虎资源网孙佳音15天前
0267
小熊录屏 v2.4.8.1 解锁会员版-铁虎资源网

小熊录屏 v2.4.8.1 解锁会员版

小熊录屏是一款功能丰富的录屏软件,可以帮大家录制游戏视频,也可以录制屏幕视频,可以设置成录制1080p视频,也可以设置720p的,软件实用性还不错,需要录屏的小伙伴可以下载试试。
test37932003的头像-铁虎资源网test379320037小时前
03314
咸鱼截流评论私信解放双手神器-铁虎资源网

咸鱼截流评论私信解放双手神器

咸鱼截流评论私信解放双手神器人气爆棚啦,这是网上很多人闲鱼爆单获客的方法,
Jeromesoymn的头像-铁虎资源网Jeromesoymn9天前
04311
2025款高仿新版假飞机假TG源码/以及搭建教程-铁虎资源网

2025款高仿新版假飞机假TG源码/以及搭建教程

2025款高仿新版假飞机假TG源码/以及搭建教程源码仅供学习交流使用,具体未测。感兴趣自行下载研究
test22003302的头像-铁虎资源网test2200330223天前
05114
零基础短视频起号直播iP运营-铁虎资源网

零基础短视频起号直播iP运营

《零基础短视频起号直播IP运营》课程专为希望在短视频和直播领域建立个人或品牌IP的学员设计。课程内容涵盖短视频内容创作、直播技巧、IP定位与发展、观众互动、营销策略及数据分析等。通过系统...
Petyalon的头像-铁虎资源网Petyalon25天前
0496
电商设计摄影大流量实战课程-铁虎资源网

电商设计摄影大流量实战课程

《电商设计摄影大流量实战课程》专为希望提升电商产品摄影与设计能力的学员设计。课程内容涵盖电商摄影基础、产品拍摄技巧、创意布景与道具使用、后期处理与修图、以及如何通过视觉设计吸引流量...
ok5455的头像-铁虎资源网ok545516天前
0207