智东西(公众号:zhidxcom)
作者 | 王涵
编辑 | 漠影
智(zhi)东西6月24日报(bao)道(dao),独立(li)数据库(ku)厂商OceanBase今日在(zai)媒体沟通(tong)会上宣布,其云数据库(ku)OB Cloud已实现(xian)AI能力的开发部署及生态(tai)集成,并(bing)已服务零售、金融、物流等行业的数十家头部企业,推动AI落地。
在今(jin)年的(de)3月27日(ri),OceanBase举行(xing)了首届(jie)合作伙(huo)伴大会,在会上(shang)OceanBase称(cheng)“AI将成为其未来重要的(de)发展方向。此(ci)次OB Cloud对AI能力的(de)部署集成与行(xing)业应用,被(bei)视(shi)为OceanBase AI战(zhan)略落地的(de)第一步(bu)。
“云(yun)数(shu)(shu)据(ju)(ju)(ju)库与AI天然契合。”OceanBase副(fu)总(zong)裁、公有云(yun)事业(ye)部总(zong)经理(li)尹博学(xue)这(zhei)样解(jie)释,一方面(mian),云(yun)数(shu)(shu)据(ju)(ju)(ju)库的弹(dan)性扩展、成本优化、高(gao)可用(yong)等特性,为AI工作负载(zai)提供坚实底座;另(ling)一方面(mian),AI对多模态数(shu)(shu)据(ju)(ju)(ju)的高(gao)效调用(yong)需求,推动云(yun)数(shu)(shu)据(ju)(ju)(ju)库强化向量检索、多模融(rong)合等能力。
“推理(li)过程中,向量(liang)检(jian)索(suo)(suo)与标(biao)量(liang)查询相(xiang)结合式(shi)的(de)数据检(jian)索(suo)(suo),可(ke)以缓解(jie)大(da)语言模(mo)型的(de)幻觉现(xian)象。”尹(yin)博学(xue)介绍到,OB Cloud将向量(liang)索(suo)(suo)引、全文索(suo)(suo)引和模(mo)糊索(suo)(suo)引集成(cheng)为“all in one”的(de)存储化(hua)引擎,可(ke)以帮助客户(hu)在简洁高效的(de)技术栈上,提高效率并降(jiang)低成(cheng)本(ben)。
据悉,OB Cloud云基座(zuo)涵盖了国内外主流的(de)(de)6家云厂(chang)商,可(ke)以(yi)获(huo)得开(kai)箱即(ji)用的(de)(de)云服(fu)务(wu)。从(cong)(cong)去(qu)年(nian)第(di)二季(ji)(ji)度(du)到今年(nian)第(di)二季(ji)(ji)度(du),一年(nian)里OB Cloud的(de)(de)开(kai)服(fu)区域(yu)(yu)从(cong)(cong)30提(ti)升到50,提(ti)升了67%;可(ke)用区从(cong)(cong)100+提(ti)升到170+,其可(ke)靠(kao)性(xing)和(he)(he)容(rong)灾能力大幅度(du)提(ti)升。可(ke)以(yi)在不同的(de)(de)地(di)域(yu)(yu)、不同的(de)(de)国家、不同的(de)(de)基础设施上,AI应用的(de)(de)可(ke)获(huo)得性(xing)变(bian)得更便捷,OB Cloud也能够在各种(zhong)地(di)域(yu)(yu)、各种(zhong)云上为AI应用提(ti)供支(zhi)撑和(he)(he)服(fu)务(wu)。

▲OceanBase副总(zong)裁、公有云事业部总(zong)经(jing)理尹博学
一、成本直降95%,OB Cloud性能超ES9.0
如今的(de)AI应用(yong)涉及海量的(de)结(jie)构化(hua)(hua)、半结(jie)构化(hua)(hua)以及非结(jie)构化(hua)(hua)数据(ju),单(dan)一数据(ju)类型(xing)的(de)存(cun)储和查(cha)询已经没(mei)有(you)办法满(man)足业务需求。与(yu)此同时,更大的(de)挑(tiao)战(zhan)来(lai)自高(gao)维向量数据(ju),推荐系统、图(tu)像搜(sou)索、语义理解等(deng)AI场景,需要处理的(de)数据(ju)不(bu)仅体量庞大,而且计(ji)算复杂(za)。
企(qi)业对于数据(ju)库的向量能力的要求(qiu)也越(yue)来越(yue)高(gao),而OB Cloud可(ke)以将(jiang)多模态数据(ju)通过嵌入模型转化成向量进行储存,实现更加高(gao)效的数据(ju)存储与调用(yong)。

对(dui)于非(fei)结(jie)构(gou)(gou)化(hua)数据处理(li),OceanBase资深技术专家张易称,OB Cloud主要(yao)通(tong)过(guo)加强文本检索和向量检索来达到更优的(de)性(xing)能。同时在非(fei)结(jie)构(gou)(gou)化(hua)之(zhi)上,目(mu)前正在通(tong)过(guo)AI函数的(de)功能,链(lian)接模(mo)型以及(ji)数据的(de)能力(li),从而能够达到一条SQL串接整个(ge)的(de)结(jie)构(gou)(gou)化(hua)以及(ji)非(fei)结(jie)构(gou)(gou)化(hua)处理(li)的(de)工作流。
在 RAG 技术应用(yong)中,其核(he)心(xin)处理(li)流(liu)程与(yu)行业主(zhu)流(liu)架构(gou)具(ju)有一(yi)致(zhi)性。该流(liu)程首先对用(yong)户问题进行理(li)解与(yu)改(gai)写,将(jiang)自然(ran)语言查询转化(hua)为适配系统处理(li)的格式(shi);继而在知识(shi)库检(jian)索环(huan)节中,完成知识(shi)片(pian)段(duan)的召回与(yu)排序优(you)化(hua),确保向大(da)模(mo)(mo)型输入高相关性信(xin)息(xi);最终由大(da)模(mo)(mo)型基于处理(li)后的内(nei)容(rong)生成答案并反馈给(ji)用(yong)户。
值得关注(zhu)的是,该方案(an)对全流程各环节(jie)(jie)进行了细粒度拆解(jie),通(tong)过对问题解(jie)析、知识检索(suo)、模型交互等(deng)每个节(jie)(jie)点的独立调优(you)与协同串(chuan)联,实现了整(zheng)体回答(da)准确率(lv)与处理效(xiao)率(lv)的系统性提升(sheng)。

▲OceanBase资(zi)深(shen)技术专家张易(yi)
OB Cloud向量算法(fa)库叫做VSAG,目前已经开源。在国际主(zhu)流(liu)的Benchmark上,VSAG向量的性能(neng)大概是目前Sota水平的90%以上。
此外,在(zai)数据层(ceng)面,OB Cloud基于(yu)向(xiang)量(liang)算(suan)法组织了内存索引、磁(ci)盘(pan)索引和混合索引来应对向(xiang)量(liang)的存储和计(ji)算(suan)的需求。最后是算(suan)力层(ceng),目前OB Cloud正在(zai)构建基于(yu)GPU的向(xiang)量(liang)索引。
在算法方(fang)(fang)面(mian),张易(yi)还提到,一方(fang)(fang)面(mian)向量(liang)数(shu)据会(hui)随(sui)着用户(hu)增长(zhang)而不断摄入,一方(fang)(fang)面(mian)用户(hu)对数(shu)据的需求也会(hui)越来(lai)越大。为了(le)既实(shi)现增量(liang)又要满足海量(liang),OB Cloud让检索实(shi)时可见,并(bing)引进磁盘IVF+HNSW混合索引,单机可支撑(cheng)10亿向量(liang)检索。
同时,在AI领域,在json等(deng)半结构(gou)化数据(ju)处理方面,OB也(ye)做了大量的(de)工作。目前(qian)在json的(de)存(cun)储优化方面,已有的(de)版本(ben)跟主流(liu)的(de)MongoDB相(xiang)比,成本(ben)仅为1/3。

OB和其他的(de)向量(liang)(liang)数(shu)据库还有一个(ge)比较大的(de)区别,即从OB整个(ge)向量(liang)(liang)数(shu)据库到(dao)向量(liang)(liang)算法(fa)全部都是自研的(de)。OceanBase资深技术(shu)专(zhuan)家(jia)张(zhang)易称,从整体性能上看(kan),自研的(de)OB Cloud的(de)向量(liang)(liang)性能已经达到(dao)主流开源数(shu)据库水(shui)平。
据蚂蚁内部统计(ji),OB Cloud对资源的(de)(de)要求高(gao)1~2个数量级(ji),同等(deng)召回率和(he)性能的(de)(de)条件下(xia),OB Cloud的(de)(de)成本可以下(xia)降95%,在研版本的(de)(de)性能超(chao)ES 9.0 BBO 16%。

在(zai)最近的(de)(de)(de)几个(ge)月,OceanBase引入(ru)RabitQ来解决传统(tong)HNSW算(suan)(suan)法占用(yong)内(nei)存较(jiao)多的(de)(de)(de)问题。内(nei)部统(tong)计,在(zai)不(bu)同(tong)的(de)(de)(de)工作负载、同(tong)样的(de)(de)(de)查询(xun)以及召回(hui)数据等(deng)量(liang)的(de)(de)(de)情况下,引入(ru)RabitQ的(de)(de)(de)OB Cloud会(hui)比和传统(tong)计算(suan)(suan)的(de)(de)(de)数据存取(qu)高,对资(zi)源的(de)(de)(de)要求也高1到2个(ge)数量(liang)级。同(tong)时与同(tong)时引进了(le)RabitQ算(suan)(suan)法的(de)(de)(de)主流(liu)产品ES9.0做(zuo)了(le)对比,OB Cloud的(de)(de)(de)BBQ高16%左(zuo)右。


据悉(xi),OB Cloud正在“TP+向(xiang)量(liang)(liang)”与(yu)(yu)“向(xiang)量(liang)(liang)+多模态(tai)”的方向(xiang)上进行探索(suo)。从蚂蚁集团(tuan)内部实践及(ji)行业(ye)趋势(shi)来看(kan),文(wen)本检(jian)索(suo)领(ling)域正经历(li)技术迭(die)代升级(ji):数年前单一向(xiang)量(liang)(liang)技术即可解(jie)决语(yu)义检(jian)索(suo)需求(qiu),近年来已发展为向(xiang)量(liang)(liang)与(yu)(yu)全文(wen)检(jian)索(suo)结合(he)(he)的模式。而当(dang)前业(ye)界数据表明(ming),向(xiang)量(liang)(liang)、全文(wen)与(yu)(yu)稀疏(shu)向(xiang)量(liang)(liang)的融合(he)(he)应用能(neng)进一步提升召回率。

基(ji)于此,技术团(tuan)队正推(tui)进两方(fang)面优化:一(yi)方(fang)面将稀疏向量(liang)(liang)、稠密向量(liang)(liang)与(yu)全文的(de)多路检(jian)索能力集成至数(shu)据(ju)(ju)库(ku)内核,使用户通过单条 SQL 即可实现(xian)混合检(jian)索;另一(yi)方(fang)面尝试将向量(liang)(liang) Embedding 模型(xing)嵌入(ru)数(shu)据(ju)(ju)库(ku),使用户仅需(xu)插入(ru)原始数(shu)据(ju)(ju),无需(xu)关注向量(liang)(liang)处理过程(cheng),从而实现(xian)数(shu)据(ju)(ju)插入(ru)与(yu)查询的(de)一(yi)体(ti)化易用性体(ti)验。

二、PowerRAG:一站式解决方案,提升回答准确率与处理效率
OceanBase公(gong)有云高级产品(pin)专家冯礼在(zai)会上称(cheng),在(zai) AI 落地中,RAG(检索(suo)(suo)增(zeng)强生(sheng)成(cheng))是企业优先采用的核心场景,通过(guo)知识库、知识检索(suo)(suo)与大(da)模型结(jie)合(he),解决(jue)大(da)模型 “幻觉(jue)” 问(wen)题(ti),使其(qi)基于企业内(nei)部数据作答。
传(chuan)统(tong)RAG搭建需(xu)复(fu)杂选型向量库(ku)、文本(ben)库(ku)等数据底座,上(shang)层依赖开源(yuan)框架(jia)开发,运维与集(ji)(ji)成成本(ben)高(gao)。现推出的PowerRAG多(duo)模(mo)一体化(hua)方案整合多(duo)元检索能力,在此基础(chu)上(shang)实现全流程(cheng)模(mo)块集(ji)(ji)成,以(yi)一站式方案降低成本(ben),其核心流程(cheng)涵(han)盖问题理解、知识库(ku)检索及大模(mo)型交互(hu),通过环节优化(hua)提升效率。

▲OceanBase公有云高级产品专家冯礼(li)
新产(chan)品PowerRAG正在(zai)形成(cheng)“集成(cheng)知识库+知识检索+大模型”式的多模一体化(hua)数据解决方案(an)。该(gai)产(chan)品可以将(jiang)文档(dang)输入(ru)到知识库形成(cheng)切(qie)片,通(tong)过向量(liang)嵌入(ru)模型以向量(liang)模式存储,用(yong)户(hu)通(tong)过提问(wen)检索答案(an),再(zai)将(jiang)答案(an)通(tong)过大语言(yan)模型输出给用(yong)户(hu)。PowerRAG还可以对文档(dang)的段落、表(biao)格和图片等不同的多模态数据采取不同的解析策略。

OceanBase AI助手以及(ji)AI驱动的(de)智能运维服务(OAS)就是该产品的(de)落地(di)实(shi)践结(jie)果。目前,PowerRAG可(ke)以在OB Cloud官网进行(xing)体验(yan)。


三、DB – LLMOps新范式,解决企业AI规模化落地三重挑战
“AI不再(zai)是工具,而是平台级(ji)基础设施的接(jie)替(ti)者。”OceanBase公有云事业部解决方案总监(jian)戴涛称(cheng),企业AI规模化落地三个核心挑(tiao)战:数据(ju)治(zhi)理与架构(gou)适(shi)配(pei)、成本和性能(neng)博弈、企业级(ji)数据(ju)安全。

▲OceanBase公有云事业部解(jie)决方案总(zong)监戴涛(tao)
面对这三个挑战(zhan),OceanBase可以(yi)帮助(zhu)企(qi)业(ye)从结(jie)合自(zi)身优(you)势(shi)产生(sheng)AI应用(yong)新范(fan)式:DB-LLMOps。该范(fan)式是围绕(rao)企(qi)业(ye)数据和大模型(xing)的(de)应用(yong)程序的(de)生(sheng)命周期管理平台或者工具。企(qi)业(ye)可以(yi)充分利(li)用(yong)企(qi)业(ye)与数据的(de)长处和特征,引入大模型(xing)的(de)能力,共同完(wan)成整个企(qi)业(ye)开发、AI开发架构范(fan)式的(de)变化。

另外,戴涛强调,在向(xiang)量技(ji)术(shu)的实际应用中,检索(suo)(suo)场景始(shi)终是核心(xin)切入点。传统检索(suo)(suo)模式以全文检索(suo)(suo)、结构化检索(suo)(suo)为主,但随(sui)着大模型(xing)(xing)技(ji)术(shu)的引入,检索(suo)(suo)需求正经历深度变(bian)革:向(xiang)量检索(suo)(suo)、语(yu)(yu)义检索(suo)(suo)、模型(xing)(xing)重排序(xu)及RAG等技(ji)术(shu)的融合(he),使检索(suo)(suo)逻辑从单(dan)一(yi)规则匹配转向(xiang)语(yu)(yu)义理解与智能优化的复合(he)模式。
当前企(qi)业面(mian)临的(de)检(jian)索场景呈现显(xian)著复杂化特(te)征:从(cong)数据形(xing)态(tai)看,图(tu)像、文(wen)本(ben)、音频、视(shi)频等多(duo)模态(tai)数据的(de)检(jian)索需求并存;从(cong)应用维度看,跨语料、跨专业、跨学(xue)科的(de)复杂检(jian)索场景日益(yi)普遍。

此类需求的(de)升(sheng)级推动向(xiang)量数(shu)据库成为(wei)关键解(jie)决方案(an),其(qi)通过(guo)高(gao)维向(xiang)量表征(zheng)与(yu)语义相似度(du)计算,可(ke)有效应(ying)对多模态数(shu)据关联分析、跨领域知识匹(pi)配等复杂检(jian)索(suo)场景(jing),为(wei)企业解(jie)决传(chuan)统检(jian)索(suo)技术(shu)在语义理(li)解(jie)与(yu)跨维度(du)检(jian)索(suo)中的(de)瓶颈问题。

在(zai)企业(ye)落地案例中,向量(liang)数据库(ku)助(zhu)力(li)以(yi)图(tu)(tu)搜图(tu)(tu)功能实现高效应用(yong)。例如,三维家(jia)家(jia)居(ju)设计(ji)企业(ye),其借助(zhu)向量(liang)数据库(ku)对(dui)大量(liang)家(jia)居(ju)素材(cai)图(tu)(tu)片进行Embedding嵌入,用(yong)户上传图(tu)(tu)片后(hou),系(xi)统可快(kuai)速检索(suo)匹配(pei)相(xiang)关设计(ji)素材(cai),辅助(zhu)设计(ji)师生(sheng)成AI装修视觉图(tu)(tu)。
跨(kua)境电商企(qi)业卡佩希(xi)通过(guo)向(xiang)量(liang)(liang)数据库(ku)实(shi)现多模态检(jian)索,客服(fu)可基于用户的图片(pian)或文字需求描述,快速检(jian)索并推(tui)(tui)荐(jian)相关女装商品,提供混(hun)合(he)检(jian)索服(fu)务。在视频推(tui)(tui)荐(jian)场景中(zhong),合(he)作企(qi)业当贝(bei)基于用户观看记录的向(xiang)量(liang)(liang)表征,通过(guo)语义匹配推(tui)(tui)送风格相似(si)的内容,将向(xiang)量(liang)(liang)检(jian)索能力(li)延伸至广告推(tui)(tui)荐(jian)领域。

在(zai)RAG场(chang)景落(luo)地中,伯俊科技(ji)利用OB向量能力构建企业(ye)知识(shi)库,沉淀专业(ye)知识(shi),后续将延伸至文件导(dao)购、AI配(pei)货等场(chang)景。货拉拉以RAG为底座,一方(fang)面通过(guo)图片、代码等模(mo)式识(shi)别(bie)实现(xian)资损代码识(shi)别(bie),辅助用户赔(pei)偿(chang)建议判断(duan);另一方(fang)面打造数(shu)仓AI答(da)疑功能,支持自然语言(yan)SQL查询(xun),为客户提供数(shu)据仓库问题解(jie)答(da)。
在(zai)企(qi)业问数场景落地中,银泰(tai)通(tong)过处理(li)自(zi)然语言,将其转化为RAG化、向量化内容,为企(qi)业管理(li)层(ceng)提(ti)供实时问题诊断。该方案(an)涵盖从自(zi)然语言到SQL的转化,训练(lian)企(qi)业特(te)殊语料,搜索(suo)数据后供经营者决策(ce)。同时,银泰(tai)还应用RAG功能(neng),对外(wai)提(ti)供智能(neng)问答(da),对内构建知(zhi)识库(ku)。

在企(qi)(qi)业(ye)(ye)Agent领域(yu)应(ying)用中,OB的一体化技(ji)术架构具(ju)备显著优势:其混合查询能力(li)支持标量与向量一体化检索,多模态交互特性可处理多元(yuan)数据。高(gao)并(bing)发(fa)、低延迟性能适配企(qi)(qi)业(ye)(ye)实时需求,数据隔(ge)离与多租户机制则保障了企(qi)(qi)业(ye)(ye)级应(ying)用的安(an)全性与资源管理效率,为企(qi)(qi)业(ye)(ye)构建AI底座提供核心支撑。

最(zui)后,戴涛总结称,企(qi)业 AI 规模化落地可分三步推(tui)进:
第一步:单(dan)场(chang)景从0到1切入(ru),建议以知识库为入(ru)口,选(xuan)择高价值、短链路场(chang)景,借助PowerRAG产(chan)品快速搭建验证。
第二步:渐进式(shi)场景扩展,针对业务与(yu) IT 团队认知差异,通过Design Thinking工作坊协同(tong)挖掘(jue)AI场景,完(wan)成小(xiao)规模应(ying)用构建,实现从1到10的能力延伸。
第三步:构建 AI 业(ye)务中台,整(zheng)合Agent、RAG及一(yi)体化数(shu)据库,形成(cheng)标准(zhun)化平台,支持业(ye)务与轻IT人(ren)员(yuan)快速开(kai)发创(chuang)新应用,推(tui)动(dong)业(ye)务与IT双轮(lun)驱(qu)动(dong),最(zui)终实(shi)现从(cong)AI赋(fu)能到AI原生(sheng)的升级。
结语:AI正重塑企业智能生产力
OceanBase副总裁、公有云事业(ye)部(bu)总经(jing)理(li)尹博学将(jiang)OB Cloud的(de)AI能力优势总结为四点(dian),分别是(shi)具备天然的(de)一体(ti)化(hua)架构(gou),一套(tao)数据(ju)库(ku)支持事务(wu)处理(li)(TP)、实(shi)时分析(xi)(AP)、AI工作(zuo)负载,用户面(mian)向(xiang)(xiang)AI无需引入额外技术栈;多模向(xiang)(xiang)量(liang)一体(ti)化(hua),原生支持向(xiang)(xiang)量(liang)、标量(liang)、空间、文本等多模数据(ju)的(de)混合(he)检索,简(jian)化(hua)AI应用复(fu)杂度;提供开箱即用的(de)RAG服(fu)务(wu),“0门槛”构(gou)建现(xian)代RAG应用;Bring AI to Data,一体(ti)化(hua)架构(gou)实(shi)现(xian)数据(ju)的(de)新(xin)鲜(xian)度与智能的(de)实(shi)时性融合(he)。
据了解,目(mu)前OB Cloud的(de)(de)AI能力(li)已在(zai)(zai)零(ling)售、金融(rong)、物流等众多行业的(de)(de)数(shu)(shu)十家(jia)头部企(qi)业中落地(di)验证。除上(shang)述提到(dao)的(de)(de)合作(zuo)伙(huo)伴外,OB Cloud在(zai)(zai)携(xie)程落地(di)“以图搜(sou)图”的(de)(de)搜(sou)索及个性化推荐场景;支撑中国联通(tong)软研院、九讯云等实(shi)现RAG智能问答的(de)(de)高效混合检(jian)索;助力(li)支付宝等企(qi)业打造更(geng)智能的(de)(de)“问数(shu)(shu)”与Agent协同应用。
值得(de)一提的是,OceanBase已(yi)与LlamaIndex、LangChain、Dify、支(zhi)付宝百(bai)宝箱等(deng)60余家(jia)AI应用开(kai)发(fa)与生态(tai)(tai)开(kai)放平台深度(du)集成(cheng),并支(zhi)持大(da)模(mo)型生态(tai)(tai)协(xie)议MCP,在全(quan)球范围内构建(jian)完整(zheng)的AI技术(shu)生态(tai)(tai)链。据(ju)了解(jie),OB Cloud与这(zhei)些AI生态(tai)(tai)伙伴(ban)也实现(xian)深度(du)对接,共同加(jia)速行业智能化升级。
“未来的(de)(de)(de)数(shu)据底座必须同时具备云的(de)(de)(de)弹(dan)性、AI的(de)(de)(de)智(zhi)能以及多云环境(jing)下的(de)(de)(de)韧性。”正如尹博(bo)学(xue)称,AI正重塑企业智(zhi)能生产(chan)力。