昨天,腾讯云重新定义了向量数据库

摘要:未来企业之间的竞争将更加集中在数据上,谁能够更好地利用数据,谁就有可能在未来的竞争中取胜。而看好AI,就应该看好向量数据库,这是腾讯云的逻辑。——腾讯云数据库副总经理罗云

昨天,腾讯云在北京召开发布会,宣布重新定义向量数据库,并发布了国内首个AI原生的向量数据库Tencent Cloud VectorDB。

先来快速了解下腾讯云重新定义向量数据库的思考维度:

昨天,腾讯云重新定义了向量数据库

图片来自,发布会现场拍摄。

腾讯云提出,向量数据库不仅应该支持自然语言查询,更应将AI算法深度融合至计算层、存储层和数据库引擎中,从而提升AI原生应用的开发效率。

关于腾讯云对向量数据库的重新定义,你有什么看法?在老鱼看来,是具有创新性的,该定义把AI与数据库技术深度融合,涉及到自然语言查询,以及深度结合AI的数据算子和存储优化,这些都为处理大规模非结构化数据带来了新的可能性。

此次重新定义的价值表现在两个方面。首先,这提供了一种全新的AI应用开发解决方案。通过自然语言查询和AI算法的深度结合,可以极大提高开发效率。其次,利用存储优化和AI的辅助,可以显著降低存储成本并提高数据处理效率。

向量数据库及其核心工作原理

在ChatGPT火起来之前,可能90%的吃瓜群众都不知道向量数据库为何物?如今,如果你还不知道向量数据库,那就out啦。因为,几乎所有由大语言模型(LLM)驱动的 AI产品或技术都使用了向量数据库,向量数据库是AI的基础设施。

那么,向量数据库究竟是什么?通俗地讲,是一种帮助机器学习模型在海量数据中找到相似样本的技术。这可能听起来有些抽象,那就让老鱼用一个例子来解释一下。

假设一个图书馆就是一个数据库,而书就是数据库中的数据。在传统的数据库中,我们通过书名、作者、出版日期等关键词去搜索我们想要的书籍。这个过程类似于我们在数据库中通过关键词检索需要的数据

然而,向量数据库的运作机制又是怎样的呢?在一个”向量”图书馆中,假设你不仅想找到一本特定的书,你还想找到所有和这本书类似的书,例如内容、风格、主题都相似的书。这在传统图书馆中可能是一项极具挑战的任务,因为这需要逐一浏览和对比每一本书的内容。

然而,在”向量”图书馆中,每本书都会被转换成一个向量,它像书的指纹,包含了书的所有特征信息。然后,我们可以通过计算这些向量之间的距离或相似度,找到与特定书最相似的其他书籍。这就是向量数据库的核心工作原理。

例如, “I like to eat pizza” 这句话,在我们人类的眼中极为简单,但在计算机眼中,它会被解构成每一个单词对应的向量。如下:

昨天,腾讯云重新定义了向量数据库

有趣的是,语义相似的句子会对应到相似的向量。就像我们经常玩的魔方,可以通过转动、找到与目标向量近似的向量。

在现实中,向量数据库被广泛应用在AI和机器学习领域,特别是在处理和查询大量高维向量数据的场景,如人脸识别,语音识别,商品推荐等等。通过向量数据库,我们可以在海量数据中,快速有效地找到相似的向量,从而提高检索的效率和精度。这种能力不仅极大地推动了AI技术的实用化,也使得我们的生活变得更加便捷和个性化。

向量数据库与大模型、生成式人工智能的逻辑关系

我们再来看一看向量数据库与大模型以及生成式人工智能的逻辑关系。

应用开发者如何使用向量数据库和大模型处理和查询过程?通常,这个过程包括文本分割、Embedding转换、向量存储、问题查询、向量检索、最后到大模型的推理。

老鱼尽量把复杂的技术讲得简单一些,向量数据库就像是一个拥有极为丰富藏书的图书馆,大模型则好比一位拥有专业图书馆管理员,总能在海量的书籍中迅速找到读者所需的信息。而生成式人工智能,就像是一位敏捷的作家,能基于图书馆中已有的信息创作出全新的作品。

腾讯云重新定义了向量数据库的概念,他们认为向量数据库不仅是一个数据的存储库,同时也是一种关键的训练工具。

这个定义的核心在于,向量数据库能显著提升生成式人工智能的输出质量,同时拓宽了大模型的时间和空间边界,解决了大模型对于新信息的无知和可能的隐私泄露问题。

众所周知,现在的大模型,如GPT-4,其训练数据截止日期是2021年9月,那么对于此后的事情,它是一无所知的。然而,向量数据库有能力存储最新的信息,从而填补这个漏洞。

同时,通过在本地存储向量数据,向量数据库能有效地防止了大模型可能导致的隐私泄露风险,这无疑是今天许多企业和组织极为关心的问题。

腾讯云向量数据库能不能打?

评估一个向量数据库能不能打,通常需要考量多个关键因素:性能、可靠性、易用性、扩展性、成本效益,以及AI和机器学习的集成等。

1、性价比:向量数据库应当保证良好的性能,同时尽量降低存储和计算成本。

2、成熟度与可靠性:一个高质量的向量数据库应该提供稳定可靠的服务,即使在面临大规模并发查询时也能保持高可用性,并且在硬件出现故障时能够保证数据的持久性。

3、易用性:一个高质量的向量数据库应该是简单易用的,包括简单快速的数据插入、查询和删除流程,同时提供易于理解和使用的API。此外,对于各种常见的数据格式和编程语言的支持也是必要的。

4、AI和机器学习的集成:对于AI原生向量数据库,其是否能够深度集成AI和机器学习算法,并提供丰富的AI功能,也是评价其成败的一个重要指标。

……

接下来,让我们看一下腾讯云Tencent Cloud VectorDB展示的一些核心亮点数据

高吞吐:最高支持10亿级向量检索规模, 相比单机插件式索引规模提升10倍;具备百万级每秒查询(QPS)的峰值能力;

低延迟:P99响应延迟20ms

高可用:基于腾讯集团大规模运营积累,日均处理万亿次请求,现网运营可用性指标达到99.99%

弹性扩展一站式向量检索数据库 :Embedding+检索集成方案,数据嵌入AI效率提升10倍

向量化能力(embedding):多次获得权威机构认可,2021年曾登顶MS MARCO榜单第一、相关成果已发表于NLP顶会EMNLPACL。

低成本:将腾讯云向量数据库用于大模型预训练数据的分类、去重和清洗相比传统方式可以实现10倍效率的提升,如果将向量数据库作为外部知识库用于模型推理,则可以将成本降低2—4个数量级。

……

这些指标意味着怎样的水平?90%的吃瓜群众可能没有概念,那就让我们深入解析一下。

腾讯云数据库副总经理罗云接受老鱼采访时,他表示,Tencent Cloud VectorDB在业界处于已经位居第一梯队领先位置,其性能和谷歌的AI检索引擎相媲美,,远超一些开源的解决方案。比如:简单的FAISS库应用可能在数十万到百万级别,而插件式+单机能够达到几百万,到亿级别就比较少了。

罗云进一步表示,Tencent Cloud VectorDB在接入层支持自然语言查询,在计算层,通过AI算子替代企业寻找/调优AI算法,将接入工期从1个月缩短到3天。在存储层,融合智能压缩算法,把向量存储成本降低50%。

在接受采访时,罗云还分享了一份有趣的数据:与传统流程相比,使用Tencent Cloud VectorDB可以实现10倍的性能提升。在传统开发流程中,AI应用的开发者需要花费大量时间进行数据处理、模型选取、向量化等步骤。而在Tencent Cloud VectorDB的帮助下,这些步骤可以大大简化,使开发者可以在更短的时间内完成工作。

罗云对向量数据库的市场前景表达了乐观的看法,随着AI技术的快速发展,他预计向量数据库有望在NoSQL领域或整个数据库领域占据重要的位置。

最后,对于Tencent Cloud VectorDB的目标客户,罗云表示主要是需要使用大模型和处理大量数据的企业,特别是那些在AI,机器学习,搜索和推荐系统等领域有大量应用的公司。

而Tencent Cloud VectorDB的出现,无疑为这些企业提供了一种新的选择。从性能、可靠性和成本效益来看,Tencent Cloud VectorDB有明显优势。那么,腾讯云向量数据库能否吸引大量的企业用户,从而改变现有的云数据库市场竞争格局,我们拭目以待。

文/老鱼

申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!

© 版权声明
THE END
喜欢就支持一下吧
点赞12
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称

    暂无评论内容

随即推荐
哔哩哔哩视频下载器v0.1.0全都支持便携版-铁虎资源网

哔哩哔哩视频下载器v0.1.0全都支持便携版

哔哩哔哩 bilibili B站 视频 下载器,软件普通视频、充电视频、番剧、电视剧、电影、课程 全都支持下载,图形界面 + nfo刮削 + 广告标记 + 字幕下载 + 弹幕下载,轻松将视频加入emby等媒体库。 ...
Miguelfen的头像-铁虎资源网Miguelfen21天前
0256
Adobe After Effects 2025破解版(简称AE2025)-铁虎资源网

Adobe After Effects 2025破解版(简称AE2025)

Adobe After Effects 2025破解版(简称AE2025)是一款动态图形处理软件及视频特效合成软件的视频后期制作软件.Adobe After Effects中文破解版用来创建动态图形和视觉特效合成,支持2D及3D动画,透过...
别偷我白米饭的头像-铁虎资源网别偷我白米饭26天前
03614
安卓爱看影视影院v4.3.0去广告免费纯净版-铁虎资源网

安卓爱看影视影院v4.3.0去广告免费纯净版

爱看影视大全是一款非常实用的影视应用程序,它提供了清晰、无广告的高清显示屏,为用户提供了宝贵的资源分享。该应用程序的视频内容都是实时更新的,用户可以随时观看各种高质量的视频。与此同...
test32576033的头像-铁虎资源网test325760339天前
02815
星云实景地图v1.4.4高清全球各地景点高级版-铁虎资源网

星云实景地图v1.4.4高清全球各地景点高级版

一款具备高清地图导航和出行路线图规划功能服务的应用软件,在这里大家可以手机地图高清街景查看和探索,让大家可以轻松查看全球各地景点画面,所有的景区画面都是绝对真实呈现,不存在任何弄虚...
Ourderag的头像-铁虎资源网Ourderag3天前
05011
大东AI设计基础课室内平面插画摄影美工设计师-铁虎资源网

大东AI设计基础课室内平面插画摄影美工设计师

1课程学习的框架思路.mp4
Korenellyrag的头像-铁虎资源网Korenellyrag20天前
0455
抖音主页视频链接解析工具 – 高效获取抖音视频资源-铁虎资源网

抖音主页视频链接解析工具 – 高效获取抖音视频资源

一款专为内容创作者设计的抖音主页视频链接解析工具,支持批量提取抖音主页所有视频链接,提供便捷的文件管理和自动清理功能。
Valeron83intab的头像-铁虎资源网Valeron83intab7天前
0337
青漫漫画v3.3.5免广告获取特权重制修复版-铁虎资源网

青漫漫画v3.3.5免广告获取特权重制修复版

青漫漫画是一款专为漫画爱好者设计的移动端阅读应用,提供涵盖耽美、少年、恋爱、古风等多种类型的正版漫画资源。所有漫画均可免费阅读,无需付费订阅。平台支持个性化阅读设置、内容自动更新及...
NARETGR2307519NEWETREWT的头像-铁虎资源网NARETGR2307519NEWETREWT23小时前
02812
聚合登录首页模板-铁虎资源网

聚合登录首页模板

这是一个非常好看的模板,使用之前请备份好源代码,以防有其他错误,可以直接在根据解压覆盖,源码已经把CSS,JS打包好了,都是本地不会拖延加载速度。
uredi_jvkn的头像-铁虎资源网uredi_jvkn28天前
04313
彩虹云商城花粥沉梦云商城用户后台美化版-铁虎资源网

彩虹云商城花粥沉梦云商城用户后台美化版

彩虹云商城花粥沉梦云商城用户后台美化版 上传目录 user 即可。
z203567981的头像-铁虎资源网z2035679815天前
03213
PHP朋友圈系统,恋爱日记-铁虎资源网

PHP朋友圈系统,恋爱日记

php仿朋友圈系统 直接上传php空间就能使用 点击头像登录管理员账号:admin/123456 还有随笔页面没有写,有技术方面的可以自己加上
孙佳音的头像-铁虎资源网孙佳音9天前
04310