智东西(公众号:zhidxcom)
作者 | 香草
编辑 | 李水青
智东西(xi)4月8日报道,今(jin)日,腾讯(xun)云(yun)宣布云(yun)存(cun)储解决(jue)方(fang)案(an)面(mian)向AIGC(生成式AI)场景全面(mian)升级,针对(dui)AI大(da)模(mo)型数(shu)(shu)据采集清(qing)洗(xi)、训(xun)练、推理(li)、数(shu)(shu)据治理(li)全流程,提供全面(mian)高效的云(yun)存(cun)储支持。数(shu)(shu)据显(xian)示,采用腾讯(xun)云(yun)AIGC云(yun)存(cun)储解决(jue)方(fang)案(an),可将大(da)模(mo)型的数(shu)(shu)据清(qing)洗(xi)和(he)训(xun)练效率(lv)均(jun)提升一(yi)倍,需要(yao)的时间(jian)缩短一(yi)半。

▲腾讯(xun)云存储AIGC解决方案升级
据(ju)腾(teng)讯(xun)云(yun)存(cun)(cun)储总经(jing)(jing)理(li)马文(wen)(wen)霜介(jie)绍,腾(teng)讯(xun)云(yun)AIGC云(yun)存(cun)(cun)储解决方(fang)案主要由(you)对象(xiang)存(cun)(cun)储COS、高性能并行文(wen)(wen)件(jian)存(cun)(cun)储CFS Turbo、数据(ju)加速(su)器(qi)GooseFS和(he)数据(ju)万(wan)象(xiang)CI等(deng)产(chan)品(pin)组成,是国(guo)内首个实现存(cun)(cun)储引擎全面(mian)自研的(de)云(yun)存(cun)(cun)储解决方(fang)案。目前,已经(jing)(jing)有(you)80%的(de)头部(bu)大模(mo)型(xing)企业(ye)选择了腾(teng)讯(xun)云(yun)AIGC云(yun)存(cun)(cun)储解决方(fang)案,包括百川智能、智谱AI、元象(xiang)等(deng)。
此前,腾讯云已经面向AIGC场景推出了(le)基于星脉网络的(de)大(da)模型(xing)(xing)训练集群HCC、向量数据库、以(yi)及行业大(da)模型(xing)(xing)服务MaaS等大(da)模型(xing)(xing)全链(lian)路(lu)云服务。马文霜强调,本次存储方案“升级不加(jia)价”,价格方面没有任(ren)何变化。
一、实现秒级Checkpoint写入,端到端一条龙服务
大(da)模(mo)型(xing)的研发生(sheng)产流(liu)程,分为数(shu)据采集与清(qing)洗、模(mo)型(xing)训练、推理三大(da)环(huan)节,其中每个环(huan)节都涉(she)及海量的数(shu)据处理。尤其是目(mu)前大(da)模(mo)型(xing)的参数(shu)量越“卷(juan)”越大(da),从十亿、百亿一(yi)直到万亿级,这对(dui)云(yun)基础设施(shi)提(ti)出了新要(yao)求。

▲大(da)模型对云(yun)基础(chu)设施提出新要求
对此,腾讯云从每个环节(jie)分别(bie)入手,面向(xiang)AIGC场景推出(chu)覆盖全链路的端到端解(jie)决方(fang)案升(sheng)级,实(shi)现了低延(yan)时、高OPS(每秒操作数)。
在数据(ju)采(cai)集环节,腾(teng)讯云COS(对象存储(chu))支(zhi)持单集群(qun)管理百EB级别存储(chu)规模,提供便捷、高效的数据(ju)公(gong)网接入能力,并支(zhi)持多(duo)种协议,充分支(zhi)持大模型PB级别的海量数据(ju)采(cai)集。

▲腾讯云全(quan)自研对象(xiang)存储引擎
同时,随着训练数据(ju)和(he)推理数据(ju)的(de)(de)增长,需要低成本(ben)的(de)(de)存(cun)(cun)储能力以减少存(cun)(cun)储开销(xiao)。对象存(cun)(cun)储服务提(ti)供了12个(ge)9的(de)(de)数据(ju)持久性(xing)和(he)99.995%的(de)(de)数据(ju)可用(yong)性(xing),能够为(wei)业务提(ti)供持续可用(yong)的(de)(de)存(cun)(cun)储服务。
在(zai)数(shu)据(ju)(ju)清(qing)洗(xi)环节,大数(shu)据(ju)(ju)引擎(qing)需要快速地读取(qu)(qu)(qu)并过滤出有效数(shu)据(ju)(ju),COS通过自(zi)研数(shu)据(ju)(ju)加(jia)速器GooseFS提升(sheng)数(shu)据(ju)(ju)访问性(xing)能,可实(shi)现高达(da)数(shu)TBps的(de)读取(qu)(qu)(qu)带(dai)宽(kuan),单次(ci)清(qing)洗(xi)任务(wu)耗时减少一(yi)半,单个(ge)文件读取(qu)(qu)(qu)速度提升(sheng)10倍。

▲腾讯云(yun)自研数据(ju)加速服务
在(zai)(zai)(zai)模型训(xun)练(lian)(lian)环(huan)节(jie),由(you)于大模型训(xun)练(lian)(lian)时间(jian)一(yi)般长达数周甚至数月,在(zai)(zai)(zai)这期(qi)间(jian),任何(he)GPU出(chu)现故(gu)障(zhang)都(dou)会导致训(xun)练(lian)(lian)终止,通常需要每2-4小(xiao)时保存一(yi)次(ci)训(xun)练(lian)(lian)成果,以便(bian)能在(zai)(zai)(zai)GPU故(gu)障(zhang)时时能回滚。因此,快速读(du)写Checkpoint(检查点)文件也(ye)成了能否高效(xiao)利(li)用(yong)算力(li)资源、提(ti)高训(xun)练(lian)(lian)效(xiao)率的关(guan)键。
腾讯云(yun)自(zi)主(zhu)研发(fa)并行文件存储(chu)CFS Turbo,面向(xiang)AIGC训练场景的进行了(le)专门优化(hua),每秒总读写(xie)(xie)吞吐达到TiB/s级别,每秒元数(shu)据(ju)性能高达百(bai)万OPS,均(jun)为业界第一。面向(xiang)3TB规模的Checkpoint,写(xie)(xie)入时间从10分钟(zhong)缩短至10秒内,样本读取效率(lv)也(ye)提升50%。

▲腾讯云自研并行文件存储CFS Turbo
这一能(neng)力的(de)背后,是(shi)腾讯云(yun)自(zi)研的(de)文件(jian)(jian)存储(chu)(chu)引擎(qing)Histor,这也是(shi)业内(nei)唯一云(yun)原生自(zi)研并行文件(jian)(jian)存储(chu)(chu)引擎(qing),其单客户端(duan)能(neng)力达10GiB/s,支持百万计OPS、千亿级文件(jian)(jian)扩展。

▲腾讯云自(zi)研文件存储引擎Histor
在数据审核阶(jie)段,大(da)模型推理场景对数据安全与可追溯(su)性(xing)提出(chu)更(geng)高(gao)要求。腾讯云(yun)一站式内容(rong)智理平台数据万象(xiang)CI推出(chu)图(tu)片隐式水(shui)印(yin)、AIGC内容(rong)审核、智能(neng)数据检索MetaInsight等功能(neng),为数据生产业务全流程提供有力支(zhi)撑。
其中,明暗(an)水印(yin)为每个AI作(zuo)品生成(cheng)专属ID,MetaInsight支持跨模态检索,可文(wen)搜(sou)(sou)图、文(wen)搜(sou)(sou)视频、图搜(sou)(sou)视频等,内容审核延时降低(di)50%,支持全媒(mei)体类型。

▲腾讯云一站式(shi)内容智(zhi)理平(ping)台数(shu)据万象
马文(wen)霜透露,目前(qian)国内80%的头部大模型(xing)企(qi)业都在用(yong)腾讯(xun)云存(cun)储服(fu)务(wu),包括百川(chuan)智(zhi)能、智(zhi)谱AI、元象、右脑科技(ji)等。
腾讯云智能存(cun)储(chu)产品总(zong)监叶嘉梁为我(wo)们演示了MetaInsight的智能检索功能,如输入一张红裙舞(wu)者照片,右边可以在对象存(cun)储(chu)直接找到对应(ying)的图片。

▲MetaInsight智能检索
通过自然语言输入(ru),MetaInsight同样能在对象存储空间中输出符(fu)合描(miao)述的图(tu)片。

▲MetaInsight智能检(jian)索
二、存储引擎全面自研,四大核心技术实现高性能文件读写
腾讯(xun)云(yun)文件存储总(zong)监陆志刚(gang)解读了并行文件存储CFS Turbo的技术(shu)升级。据称,这(zhei)是国内(nei)目前唯一实(shi)现存储引擎(qing)全面自研的云(yun)存储解决(jue)方(fang)案。
CFS Turbo拥(yong)有四大核心技术,分(fen)(fen)别是并行客户(hu)端、智能缓存技术、自(zi)适应(ying)条(tiao)带(dai)化以及(ji)分(fen)(fen)布式(shi)元(yuan)数(shu)据。

▲AIGC时代下的文件存储(chu)技术要素
并(bing)行客户端支(zhi)持(chi)一个(ge)客户端同时和多个(ge)服务端通(tong)过多条链路传输,提(ti)升访问速率。

▲CFS Turbo总体架(jia)构
智能缓存技术(shu)在客户端(duan)和服务端(duan)两级(ji)采(cai)用分布式(shi)缓存,元数(shu)据(ju)和数(shu)据(ju)之(zhi)间采(cai)用独立缓存机制,读(du)写(xie)(xie)操(cao)作可分别配置,读(du)缓存加(jia)速重复数(shu)据(ju)的(de)读(du)取,写(xie)(xie)缓存提升(sheng)Checkpoint的(de)保(bao)存速度(du)。

▲分布式缓存
自适(shi)应条(tiao)带化通过智能分片,把大文件(jian)(jian)切割成小(xiao)文件(jian)(jian)同时并(bing)发写(xie)入,提升吞吐,单文件(jian)(jian)读(du)写(xie)吞吐可(ke)达(da)5GB/s,集(ji)群读(du)写(xie)吞吐线(xian)性增(zeng)长,1PB容量规模可(ke)达(da)1TB/s读(du)写(xie)吞吐,单客户端(duan)文件(jian)(jian)读(du)写(xie)性能达(da)10GB/s。

▲文件动态条带化
分(fen)布式(shi)元数(shu)据(ju)(ju)对上亿级别文(wen)件(jian)目(mu)录分(fen)散处理,提升并发性(xing)能(neng)。传统(tong)元数(shu)据(ju)(ju)服务器是树型,受单点制(zhi)约,而业内普遍(bian)的(de)解决方式(shi)是采用联(lian)邦式(shi),但仍需(xu)要提前(qian)规(gui)划(hua)文(wen)件(jian)和目(mu)录分(fen)配(pei)(pei)。CFS Turbo采取的(de)分(fen)布式(shi),能(neng)使元数(shu)据(ju)(ju)性(xing)能(neng)线性(xing)扩展(zhan)至十多倍(bei),文(wen)件(jian)和目(mu)录自(zi)动均(jun)衡分(fen)配(pei)(pei)。

▲分布式元数据
在(zai)这些技术(shu)的(de)(de)支撑(cheng)下(xia),腾讯云CFS Turbo能(neng)提(ti)供业界第(di)一的(de)(de)TiB/s级别总读写(xie)吞吐和百万OPS的(de)(de)每秒(miao)元数(shu)据性能(neng),解决训(xun)练文件(jian)读写(xie)瓶颈(jing)。以3TB大(da)(da)小(xiao)的(de)(de)Checkpoint为(wei)例,写(xie)入(ru)能(neng)从(cong)10分钟(zhong)瞬间缩短(duan)至10秒(miao)内。在(zai)GPU发生(sheng)故障时,能(neng)大(da)(da)幅降低对训(xun)练时长的(de)(de)影(ying)响。

▲Checkpoint写入效果
此外(wai)在数据推理(li)阶段,CFS Turbo可实现字节(jie)粒度(du)强一致(zhi),在模型发布(bu)或修(xiu)改时,多(duo)客户端(duan)可同(tong)时读(du)写同(tong)意模型文件,保(bao)证数据一致(zhi)性。

▲字节粒度强一致
基(ji)于自研(yan)分布式(shi)高性能存储引擎Histor,CFS Turbo底层(ceng)通过(guo)自研(yan)用(yong)户态协议(yi)栈和(he)RDMA等技术,减少(shao)数据的多(duo)次(ci)拷贝与(yu)虚拟化消耗(hao),大幅降(jiang)低(di)了存储时延、提升吞吐性能;在应用(yong)侧,CFS Turbo自研(yan)并行文(wen)件(jian)传(chuan)输协议(yi),实现了多(duo)链路并行访(fang)问(wen),大大提升了吞吐效率。
除了大模型(xing)企(qi)业(ye)以外,CFS Turbo也被广泛应(ying)用(yong)于(yu)自(zi)动驾驶与工业(ye)仿(fang)真(zhen)场(chang)景(jing),包括博世汽车、蔚来等(deng)自(zi)动驾驶厂商,上(shang)海(hai)电(dian)气、深势等(deng)厂商的仿(fang)真(zhen)场(chang)景(jing),墨镜天(tian)合、追(zhui)光(guang)等(deng)企(qi)业(ye)的影(ying)视特效场(chang)景(jing)。
结语:大模型倒逼云存储升级,腾讯云树立新标杆
今年1月,在沙利文联合头豹研究院发布的(de)(de)《2023年中国云(yun)存(cun)(cun)储(chu)解(jie)决方(fang)(fang)案(an)市场报告(gao)》中,腾(teng)讯云(yun)存(cun)(cun)储(chu)入选“领导(dao)者(zhe)”阵(zhen)营,位列第一。随着大模型时代来临(lin),AIGC场景对数据(ju)存(cun)(cun)储(chu)和处理(li)的(de)(de)需求日益增长,腾(teng)讯云(yun)凭(ping)借其在云(yun)计算领域的(de)(de)深(shen)厚积(ji)累,推出了全面(mian)升(sheng)级的(de)(de)AIGC云(yun)存(cun)(cun)储(chu)解(jie)决方(fang)(fang)案(an),为(wei)AI大模型提供更加(jia)高(gao)效、全面(mian)的(de)(de)云(yun)存(cun)(cun)储(chu)支持(chi)。
在数据采(cai)集、清洗、训练、推(tui)理、数据治理等(deng)全流程中(zhong),腾(teng)讯云的(de)AIGC云存储解(jie)决方案展现出了(le)(le)卓越的(de)性能。通过自研的(de)核心(xin)技术和产品,腾(teng)讯云不仅(jin)在性能上实现了(le)(le)质的(de)飞跃,更在价格(ge)上保持(chi)了(le)(le)亲民(min),成(cheng)为(wei)众多头部大(da)模型企业的(de)首选。