智东西(公众号:zhidxcom)
作者 | GenAICon 2024

2024中国生成式AI大会于4月18-19日在北京举行,在大会第二天(tian)的主会场(chang)AI Infra专(zhuan)场(chang)上,焱(yan)融科技(ji)CTO张文涛以《多云环境下大模型训练和推理(li)的高效存储(chu)》为题发表演讲。

随着大模(mo)型训(xun)练和(he)推(tui)理需要(yao)的(de)算(suan)力越来(lai)越高,单(dan)个数(shu)据中(zhong)心(xin)已经(jing)无法满(man)足大模(mo)型训(xun)练所需要(yao)的(de)算(suan)力要(yao)求(qiu),需要(yao)多(duo)数(shu)据中(zhong)心(xin)进行(xing)训(xun)练和(he)推(tui)理。

多个(ge)数(shu)据中(zhong)心存(cun)在(zai)多份(fen)数(shu)据拷贝(bei)的成本越来越大(da),如何在(zai)保证(zheng)性能的前提下(xia)(xia),让数(shu)据按需(xu)跟随算(suan)力进行流转(zhuan),成为大(da)模(mo)型厂商(shang)(shang)和(he)(he)存(cun)储(chu)厂商(shang)(shang)要解决的难题。从数(shu)据加(jia)载(zai)、模(mo)型加(jia)载(zai)到(dao)Checkpoint保存(cun)等(deng)过(guo)程(cheng)中(zhong),存(cun)在(zai)大(da)量的读写请求、元数(shu)据访问和(he)(he)内存(cun)拷贝(bei)等(deng)操作。在(zai)此背景下(xia)(xia),张(zhang)文涛解读了存(cun)储(chu)对(dui)大(da)模(mo)型训练和(he)(he)推理的重要性和(he)(he)一些可行方法。

对于多模态(tai)大模型(xing),高(gao)性能存(cun)(cun)储对训练的(de)提升效(xiao)果更好,效(xiao)率可提升20-40%。针对训练推理,焱融科技(ji)推出(chu)了多云(yun)存(cun)(cun)储解(jie)决方案。基于统(tong)一的(de)数(shu)(shu)(shu)(shu)据(ju)湖底座,通过数(shu)(shu)(shu)(shu)据(ju)编排将(jiang)数(shu)(shu)(shu)(shu)据(ju)按(an)需加(jia)载(zai)到数(shu)(shu)(shu)(shu)据(ju)中心,并异步将(jiang)新增的(de)模型(xing)数(shu)(shu)(shu)(shu)据(ju)推到数(shu)(shu)(shu)(shu)据(ju)湖。数(shu)(shu)(shu)(shu)据(ju)加(jia)载(zai)支持对接OSS、COS、BOS等各大主流(liu)对象存(cun)(cun)储平台。

以下为张文涛的演讲实录:

炎融科技专(zhuan)注于(yu)(yu)高性能分布式(shi)文(wen)件(jian)存储(chu),是英伟达(da)在中(zhong)国的合作(zuo)伙伴之一。在Gartner中(zhong)国软件(jian)定义存储(chu)竞争(zheng)格局报告中(zhong),我们是唯(wei)一一家专(zhuan)注于(yu)(yu)文(wen)件(jian)存储(chu)的厂商(shang)。

我(wo)们曾(ceng)参与(yu)过IO500测(ce)试,全球排名第(di)六,是国内首家进入云原生存储(chu)领(ling)域的(de)公司(si)。去年,焱融科技入选了赛迪中(zhong)国式存储(chu)挑战者象限,展现(xian)了我(wo)们在行(xing)(xing)业中(zhong)的(de)竞争实力。焱融科技的(de)产(chan)品(pin)在AI和智能汽车行(xing)(xing)业占有领(ling)先地位。

接(jie)下来,我们(men)将分享三个(ge)主要(yao)方面:第(di)一,为什么(me)存储对(dui)大模(mo)型训练(lian)和推理(li)很重要(yao);第(di)二(er),大模(mo)型推理(li)和训练(lian)的解决方案(an);第(di)三,在当前算力短(duan)缺(que)的情况下,我们(men)不(bu)得不(bu)采用(yong)多(duo)云(yun)方式进(jin)行训练(lian)和推理(li),在此过程中,将会遇(yu)到(dao)哪些问题(ti),又该如何去解决?

一、大模型场景六大环节需要存储,优秀方案能平衡性能与成本问题

大模型场景里有(you)哪(na)些(xie)环节,这些(xie)环节里对存(cun)储(chu)又有(you)哪(na)些(xie)诉求?主要分为六个(ge)部分。

第一,数据采集。包括从第三(san)方购买(mai)数据(ju)、网(wang)络爬取以及现场采(cai)(cai)集。由于(yu)采(cai)(cai)集方式各异,存储访问也需考虑多种协议。采(cai)(cai)集的原(yuan)始(shi)数据(ju)量(liang)较大,因此(ci)需要高容量(liang)、低(di)成本的存储方案。同时(shi),我(wo)们(men)希望存储能够支持高并发、高带宽(kuan)。

焱融科技张文涛:将大模型训练效率提升40%!详解多云架构下高效存储策略丨GenAICon 2024

第二,数据预处理。包括(kuo)清洗、筛选、格式(shi)转换和(he)集成。这一(yi)过程涉及多个环节,对存储(chu)而言需(xu)要(yao)支持多种协议,如NFS、SMB、S3、HCFS、POSIX等。在数据预处理(li)中,需(xu)要(yao)进行(xing)大(da)量(liang)的(de)数据检索,从各个维度提取数据,满足不(bu)同的(de)检索需(xu)求。数据在此阶(jie)段的(de)特点是混(hun)乱的(de),IO大(da)小(xiao)和(he)读写方式(shi)也是混(hun)合的(de)。

第三,模型训练。在存储(chu)方面相对简单,但也(ye)具(ju)有挑(tiao)战性。在这(zhei)一阶(jie)段,性能是关键,包括对读取带(dai)(dai)宽、读取IOPS和写(xie)入带(dai)(dai)宽的要求,以及整体低延迟的需求。

第四,模型验证。这也是训(xun)练(lian)过(guo)程的一部(bu)分。

第五,推理。推理本身并(bing)不需(xu)要(yao)频繁访(fang)问存储(chu),其主(zhu)要(yao)对存储(chu)的需(xu)求源(yuan)自模型的部(bu)署和更新(xin)(xin)。在模型部(bu)署和更新(xin)(xin)时(shi),要(yao)批(pi)量将模型加载到(dao)GPU中,这可(ke)能引发类似启动风(feng)暴的问题,需(xu)要(yao)瞬(shun)时(shi)加载大量数(shu)据,峰值瞬(shun)时(shi)流量可(ke)能达数(shu)十TB。

第六,数据归档。随(sui)着(zhe)数(shu)(shu)(shu)(shu)据(ju)的(de)(de)不断增加,涵盖了(le)模型数(shu)(shu)(shu)(shu)据(ju)、数(shu)(shu)(shu)(shu)据(ju)集以及原始数(shu)(shu)(shu)(shu)据(ju),数(shu)(shu)(shu)(shu)据(ju)治理(li)问题日益显现。在存储(chu)方面,我(wo)们(men)期望(wang)实现全生命(ming)周期的(de)(de)数(shu)(shu)(shu)(shu)据(ju)管理(li),最好是基于时(shi)间维度的(de)(de)方式。随(sui)着(zhe)数(shu)(shu)(shu)(shu)据(ju)访问热度的(de)(de)降低(di),我(wo)们(men)希望(wang)自动将冷数(shu)(shu)(shu)(shu)据(ju)转(zhuan)移(yi)到低(di)成(cheng)本的(de)(de)存储(chu)介质上,但同时(shi)保(bao)证当需要访问时(shi),数(shu)(shu)(shu)(shu)据(ju)能够随(sui)时(shi)可见。

这(zhei)几个(ge)环节对(dui)存储的(de)需(xu)求很高,特别是在模(mo)型的(de)训练和推理阶段,这(zhei)两个(ge)环节尤为挑战性。

为何存储在这两个(ge)方面至关重要(yao)?主要(yao)有两个(ge)原因。

首先,存储直接影响了模型训练的效率。在训练过程中(zhong)(zhong),需要从存(cun)储加载模型(xing)和数(shu)据,并定期(qi)将GPU内存(cun)中(zhong)(zhong)的数(shu)据保存(cun)到存(cun)储中(zhong)(zhong)。在每个环节(jie),存(cun)储都必须提供最(zui)佳性(xing)能。

其次,推理业务上线时通常会同时启动数十甚至上百个业务pod,需要瞬时提供几十TB的流量。例如,一个量化后(hou)的(de)模(mo)(mo)型(xing)可能(neng)有数十GB甚至上(shang)百(bai)GB,几(ji)十个业(ye)务(wu)pod同时(shi)启动,会产生(sheng)巨大的(de)瞬时(shi)流量。由于模(mo)(mo)型(xing)更新频繁,业(ye)务(wu)上(shang)线的(de)延迟(chi)应(ying)控制在分钟级别,并且希望不受推理业(ye)务(wu)规(gui)模(mo)(mo)扩大影响,以避免存储带宽峰值对模(mo)(mo)型(xing)下载(zai)延迟(chi)的(de)影响。优秀的(de)存储解决方案不仅能(neng)够解决这些(xie)问题,还能(neng)平衡性能(neng)与成本。

二、高性能存储如何影响训练与推理?缩短多模态训练时间可提升40%效率

接(jie)下(xia)(xia)来介绍一(yi)下(xia)(xia)存(cun)(cun)储(chu)对于(yu)训(xun)练的影响(xiang),在(zai)训(xun)练过(guo)程当(dang)中,有4个地方(fang)会对存(cun)(cun)储(chu)有要求:

1、数据的预读和训练。我们进行数据训练(lian)时(shi)(shi),需要将数据从存(cun)储(chu)加载到GPU进行计算。在(zai)这个过程中,可能会采用预读机(ji)制或直接读取(qu)方式(shi)。特别是在(zai)Batch Size较小时(shi)(shi),会产生大(da)量(liang)小的I/O操(cao)作。在(zai)多模态大(da)模型(xing)中,由于(yu)存(cun)在(zai)许多图文对形式(shi)的小文件,因此会出现大(da)量(liang)小文件访问带(dai)来的大(da)量(liang)元数据操(cao)作。

焱融科技张文涛:将大模型训练效率提升40%!详解多云架构下高效存储策略丨GenAICon 2024

2、POSIX和GDS协议。尽管(guan)当前许多训(xun)(xun)练任务(wu)都(dou)使(shi)用对象存(cun)储,但在训(xun)(xun)练阶段,实(shi)际(ji)上还是通过文(wen)件接口进行访问(wen)(wen)(wen)。只(zhi)有文(wen)件接口能够提供高性能,并(bing)且具有最(zui)佳的(de)兼容性。随着越(yue)来越(yue)多的(de)训(xun)(xun)练任务(wu)面(mian)临内存(cun)拷(kao)贝(bei)性能问(wen)(wen)(wen)题(ti),将数据从CPU内存(cun)拷(kao)贝(bei)到GPU内存(cun)时,性能问(wen)(wen)(wen)题(ti)变得突(tu)出。目(mu)前,许多客户开始尝试使(shi)用GPU Direct技术来加速(su)性能。

3、模型的加载。当启(qi)动新的(de)训练任务,或由于其他原因需要重(zhong)新启(qi)动训练时(shi),需要将模(mo)型(xing)加载到GPU中(zhong)。在这个过程会产生大量的(de)读(du)取I/O。英伟达在2021年发表(biao)了一篇论(lun)文,关于千(qian)卡规模(mo),当时(shi)的(de)存储(chu)峰值读(du)取带宽可达到1TB/秒。

4、Checkpoint的保存。在训练过(guo)程中,Checkpoint起(qi)着重要作(zuo)用(yong)。由(you)于有大量GPU同时(shi)进(jin)行Checkpoint,且GPU的(de)故障率相对(dui)较高,因此需要定期保存(cun)(cun)Checkpoint。这(zhei)个(ge)过(guo)程本身就(jiu)是保存(cun)(cun)一个(ge)模型,保存(cun)(cun)过(guo)程中,训练状(zhuang)态(tai)会暂停,并进(jin)行同步等待。保存(cun)(cun)过(guo)程的(de)时(shi)长越短,训练的(de)GPU利用(yong)率就(jiu)越高。

焱融科技张文涛:将大模型训练效率提升40%!详解多云架构下高效存储策略丨GenAICon 2024

这个(ge)图比较(jiao)直观,红色(se)(se)表示(shi)数据(ju)加载,绿色(se)(se)表示(shi)训练,黄(huang)色(se)(se)表示(shi)Checkpoint保存。

对(dui)于(yu)大(da)语言模(mo)(mo)型(xing)(xing)而(er)言,由于(yu)其训练集较(jiao)小,存(cun)(cun)(cun)储(chu)访问占比(bi)并不会很高(gao)。但是对(dui)于(yu)多模(mo)(mo)态大(da)模(mo)(mo)型(xing)(xing),尤其像Sora模(mo)(mo)型(xing)(xing),数据访问占比(bi)较(jiao)大(da)。对(dui)于(yu)训练任(ren)务来说,普通存(cun)(cun)(cun)储(chu)和高(gao)性(xing)能存(cun)(cun)(cun)储(chu)之间的(de)差(cha)异会非常明显。高(gao)性(xing)能存(cun)(cun)(cun)储(chu)能够(gou)大(da)大(da)压缩(suo)存(cun)(cun)(cun)储(chu)访问时(shi)(shi)间。对(dui)于(yu)多模(mo)(mo)态任(ren)务来说,缩(suo)短(duan)训练时(shi)(shi)间可以提升20%至40%的(de)效率。

在英伟达的最佳实践中,对于NLP任务,单台GPU只需要4GBps的读取带宽。但对于多模态任务而言,单节点需要40GBps的读取带宽,基本上需要一张400Gb NDR的卡来处理。一个SuperPod需要500GBps的读取带宽,这个要求是相当高的

存(cun)储对(dui)推理的(de)(de)影响主要集中在模型加载和更新的(de)(de)过程(cheng)。在启(qi)动推理业(ye)务时需要先(xian)加载模型文(wen)(wen)件,模型文(wen)(wen)件大小(xiao)在几十(shi)G到上百GB之间,而一次性会启(qi)动几十(shi)个pod,因(yin)此整个数据量(liang)可达几十(shi)到上百TB。

焱融科技张文涛:将大模型训练效率提升40%!详解多云架构下高效存储策略丨GenAICon 2024

推理业务(wu)通(tong)常(chang)部(bu)署在边(bian)缘节(jie)点,其(qi)GPU配置不如训练集群那(nei)么高(gao)。在这样(yang)的环境中,存储和计算之间(jian)的网络带宽(kuan)通(tong)常(chang)也会(hui)受限(xian),一般为(wei)25Gb的以太网络。此时启动(dong)(dong)整(zheng)个(ge)推理业务(wu)时的延迟会(hui)很高(gao),在启动(dong)(dong)和扩容过(guo)程(cheng)中会(hui)遇到(dao)严重的启动(dong)(dong)风暴(bao)问题。

三、基于四大核心组件,精准部署存储解决方案

我(wo)(wo)们(men)的(de)大模型(xing)训练和推理(li)过(guo)程的(de)存储解决(jue)方案(an)基于YRCloudFile系统(tong),整(zheng)体架(jia)(jia)构包(bao)含(han)四个核心组件:1)集(ji)群(qun)管理(li)服(fu)(fu)务,采用一主多备(bei)的(de)高可(ke)用架(jia)(jia)构;2)元(yuan)数(shu)据服(fu)(fu)务,支持(chi)海量小文件场(chang)景,我(wo)(wo)们(men)的(de)元(yuan)数(shu)据集(ji)群(qun)能够横向水平扩(kuo)展(zhan)(zhan);3)集(ji)群(qun)服(fu)(fu)务,能够水平扩(kuo)展(zhan)(zhan);4)客(ke)户(hu)端(duan)(duan)。相比于基于FUSE的(de)用户(hu)态私有(you)客(ke)户(hu)端(duan)(duan),它有(you)更高的(de)性能。

在硬件方面(mian),我们能够支(zhi)(zhi)持(chi)(chi)标准x86架(jia)构,也支(zhi)(zhi)持(chi)(chi)Arm架(jia)构的鲲鹏服(fu)务器(qi)、海(hai)光服(fu)务器(qi)和飞腾服(fu)务器(qi);在数(shu)据冗余方面(mian),支(zhi)(zhi)持(chi)(chi)副本的方式,也可(ke)以支(zhi)(zhi)持(chi)(chi)低成本的纠删码的方式;在网络方面(mian),支(zhi)(zhi)持(chi)(chi)25Gb、100Gb、200Gb的以太网,以及(ji)支(zhi)(zhi)持(chi)(chi)200Gb、400Gb的Infiniband网络,也支(zhi)(zhi)持(chi)(chi)RoCE网络;在协议层面(mian),支(zhi)(zhi)持(chi)(chi)标准的NFS、SMB、S3、HCFS以及(ji)私(si)有的POSIX协议。

针对大模型训(xun)练场景,我们提供了一(yi)系列功能和(he)特性,以(yi)支持和(he)加速(su)模型的训(xun)练过程。

焱融科技张文涛:将大模型训练效率提升40%!详解多云架构下高效存储策略丨GenAICon 2024

其中包括Multi-Channel技(ji)术(shu),支(zhi)撑单节点提供超(chao)高(gao)性(xing)能(neng)带宽和IOPS的核心技(ji)术(shu)。

其次是GPU Direct Storage(GDS)技术。随着客户内存的(de)不断(duan)增(zeng)大(da),传统(tong)的(de)缓存技术已经无法满足数据(ju)集的(de)存储(chu)需求,GDS技术应运而生。

还有内核私有客户端,能(neng)够减少上下文的切换,能(neng)够提供高带宽和(he)IOPS。

第(di)四(si),能够支持400Gb NDR的(de)网(wang)络,结合Multi-Channel技(ji)术,在x86架(jia)构下,提供单节点90GBps的(de)带(dai)宽,以及300万IOPS的(de)性能。

针对多模态(tai)的(de)(de)海量小(xiao)文件(jian)(jian)场景,我们(men)提(ti)供了分布式元数据(ju)集(ji)群(qun)(qun),单个集(ji)群(qun)(qun)能够支撑千亿(yi)级(ji)的(de)(de)文件(jian)(jian)数量。我们(men)线(xian)上(shang)最(zui)大的(de)(de)单一(yi)集(ji)群(qun)(qun)包含接近400亿(yi)文件(jian)(jian),拥有100多个元数据(ju)节点(dian),是目前线(xian)上(shang)最(zui)大的(de)(de)单一(yi)元数据(ju)集(ji)群(qun)(qun)。

在功(gong)能(neng)层(ceng)面(mian),我们提(ti)供了多种(zhong)功(gong)能(neng)。

第一,智能分层。能(neng)够(gou)有(you)效地(di)将数据下沉到(dao)对象存储中(zhong),从(cong)而(er)极(ji)大地(di)降低(di)成本。即便在提供高(gao)性能(neng)的情况下,也能(neng)够(gou)实现低(di)成本。

第二,目录级Quota和QoS。为运维人(ren)员(yuan)提供(gong)(gong)方便的(de)管理(li)工具,同(tong)时提供(gong)(gong)了日审计(ji)和回(hui)收站(zhan)功能,使运维同(tong)学能更好地(di)应对客户的(de)需求(qiu)和问题。

第三,协议网络支持。近一(yi)年来,对多协议(yi)网(wang)络(luo)支持的需求急(ji)剧增加。由于GPU卡供应紧(jin)张,数据中心构(gou)建时出现了异构(gou)网(wang)络(luo)场(chang)景,既有InfiniBand网(wang)络(luo),又有以太网(wang)。

在这种情况(kuang)下,构建多套存储(chu)是(shi)不(bu)现实的,因为存储(chu)之间不(bu)互(hu)通,且会增(zeng)加成(cheng)本和(he)管(guan)(guan)理复杂度。我们提供了多网络协议支持(chi),在同(tong)一个集(ji)群中可(ke)以同(tong)时支持(chi)InfiniBand和(he)以太网访问,方便数据中心(xin)存储(chu)设(she)施(shi)的构建和(he)管(guan)(guan)理。

GDS技术(shu)的(de)(de)最大优(you)势在于能够有(you)效(xiao)减(jian)少(shao)CPU和(he)CPU Memory的(de)(de)使用(yong),从(cong)而极大地(di)降低(di)了CPU的(de)(de)利(li)(li)用(yong)率(lv)。在没有(you)GDS技术(shu)时,数据的(de)(de)传(chuan)输(shu)路径通(tong)常是从(cong)网卡(ka)拷贝(bei)到CPU Memory,涉及多(duo)次内(nei)(nei)存的(de)(de)拷贝(bei)。而使用(yong)了GDS技术(shu)后,数据可以直接从(cong)网卡(ka)经由DMI方式传(chuan)输(shu)到GPU的(de)(de)Memory里面,减(jian)少(shao)了内(nei)(nei)存拷贝(bei)的(de)(de)次数,有(you)效(xiao)降低(di)了CPU的(de)(de)利(li)(li)用(yong)率(lv)。

接下来是一些我(wo)们(men)在实验环境(jing)和客(ke)户(hu)现(xian)场测得的数据。

我(wo)们对比(bi)了使用(yong)GDS和不(bu)使用(yong)GDS的(de)(de)情况(kuang),在(zai)带宽和延迟方(fang)面(mian)都取得了显著的(de)(de)性能提(ti)升(sheng)。具体(ti)来(lai)说,在(zai)带宽方(fang)面(mian),使用(yong)了GDS后,整体(ti)带宽性能提(ti)升(sheng)了近40%;而在(zai)延迟方(fang)面(mian),我(wo)们观察到(dao)有50%至60%的(de)(de)性能提(ti)升(sheng)。

当然,在(zai)(zai)低(di)(di)负(fu)载(zai)情况下(xia),性(xing)能提升不太明(ming)显(xian),但在(zai)(zai)高负(fu)载(zai)情况下(xia),其效果显(xian)著。这与(yu)GDS的作(zuo)用(yong)相符(fu)合。在(zai)(zai)CPU利用(yong)率(lv)方面,我们(men)可以看到(dao),在(zai)(zai)高并发量的情况下(xia),CPU负(fu)载(zai)显(xian)著降(jiang)低(di)(di)。使用(yong)了GDS后,CPU的利用(yong)率(lv)基(ji)本上处于空闲状态。

针对推理环节的(de)(de)解(jie)决(jue)方案,主要在于(yu)(yu)存储和计(ji)算(suan)之(zhi)间(jian)的(de)(de)网(wang)络瓶(ping)颈。由于(yu)(yu)推理集群通常采用25Gb以太网(wang)络,无法(fa)像训(xun)练(lian)集群那样构建200Gb或400Gb的(de)(de)IB网(wang)络,因此存储和计(ji)算(suan)之(zhi)间(jian)的(de)(de)带(dai)宽成为一个重要瓶(ping)颈。

我(wo)们推出了(le)(le)客(ke)户端(duan)缓存(cun)池解(jie)决方案(an),该方案(an)在加(jia)载(zai)(zai)模型时(shi)充分利用计算节点(dian)的本地SSD形成一(yi)个大的缓存(cun)池。当需要加(jia)载(zai)(zai)模型时(shi),我(wo)们首先将模型并发(fa)加(jia)载(zai)(zai)到(dao)客(ke)户端(duan)缓存(cun)池中(zhong),然后再由客(ke)户端(duan)缓存(cun)池将模型加(jia)载(zai)(zai)到(dao)GPU中(zhong)。这样一(yi)来,我(wo)们有效地解(jie)决了(le)(le)启动(dong)(dong)风暴(bao)的问题。随(sui)着计算节点(dian)规模的增加(jia),缓存(cun)池的性能也会相应提(ti)升,从而有效地应对启动(dong)(dong)风暴(bao)的挑(tiao)战(zhan)。

四、训练推理无法在单一数据中心完成,多云方式带来一系列挑战

之(zhi)前我们讨论了单一(yi)数据中心内的(de)解决方案,然(ran)而,由于诸多因(yin)素的(de)影响,如(ru)卡的(de)采购、资源租赁(lin)等,训练和推理(li)往往无法在单一(yi)数据中心完成。

因此,我们不(bu)(bu)得不(bu)(bu)采用多云(yun)的方式,但(dan)这也带来了一系(xi)列挑战(zhan)。

对于大模型厂(chang)商(shang)而言,通常会(hui)将(jiang)所有数据(ju)存(cun)放在一个称为(wei)“Source of Truth”的数据(ju)中心内,而训练集(ji)群(qun)和推(tui)理集(ji)群(qun)则分布在多(duo)个云上,它们之(zhi)间(jian)通过公网或专网连(lian)接(jie)。

训(xun)练集(ji)(ji)群(qun)(qun)通常需(xu)要(yao)共(gong)享(xiang)数(shu)据(ju),而不是为每个集(ji)(ji)群(qun)(qun)提供一份(fen)全量数(shu)据(ju),这样做成本高且(qie)管理(li)复杂。推(tui)(tui)(tui)理(li)集(ji)(ji)群(qun)(qun)也需(xu)要(yao)共(gong)享(xiang)模型(xing)数(shu)据(ju),以便灵活扩展推(tui)(tui)(tui)理(li)业务。由于边缘数(shu)据(ju)中心(xin)的存储容量有限,我们的训(xun)练集(ji)(ji)群(qun)(qun)和推(tui)(tui)(tui)理(li)集(ji)(ji)群(qun)(qun)都需(xu)要(yao)按需(xu)加载数(shu)据(ju)。

我们面临两个主要特点:共享和按需。在这(zhei)种情况下,通(tong)常会有一个中心的(de)“Source of Truth”数(shu)据(ju)湖(hu)提供对象存储访问。当我们在边缘数(shu)据(ju)中心进行训(xun)练时,需(xu)要(yao)通(tong)过数(shu)据(ju)编(bian)排的(de)方(fang)式将数(shu)据(ju)集(ji)按需(xu)加载到(dao)数(shu)据(ju)中心。当训(xun)练产生(sheng)模型(xing)数(shu)据(ju)或结束后,我们可(ke)以(yi)将模型(xing)数(shu)据(ju)导出到(dao)数(shu)据(ju)湖(hu)中,而其(qi)他(ta)推理集(ji)群可(ke)以(yi)根据(ju)需(xu)要(yao)订阅(yue)并拉取这(zhei)些模型(xing)数(shu)据(ju)到(dao)各自的(de)集(ji)群中。

整个架构的基本思路就是这样,所有边缘数据中心都能与数据湖进行连接,数据的流转通过数据编排的方式按需拉取或导回到数据湖中

实现数据的灵活流转,需要具备相应的功能支持。其中,数据加载功能可以让数据在各个平台之间灵活地流动;Dataload功能可以与主流的调度平台对接起来进行数据编排,对接标准的S3,如公有云的OSS、COS、BOS以及开源的对象存储,如Ceph、Minio等。Dataload功能能够关(guan)联对象(xiang)和文(wen)件(jian),将对象(xiang)bucket或者Prefix与文(wen)件(jian)路径关(guan)联起来(lai),并(bing)支持多次导入导出;通过(guo)API方式,可以按需进行(xing)数据流(liu)转。

焱融科技张文涛:将大模型训练效率提升40%!详解多云架构下高效存储策略丨GenAICon 2024

为了方便管理员管理,我们提供了查看导入导出进度和历史记录的(de)功能(neng)。这些功能(neng)不会影响业(ye)务(wu)对数据的(de)访(fang)问,业(ye)务(wu)仍然可以通过标准的(de)NFS、SMB、POSIX、S3等接口进(jin)行访(fang)问。

当(dang)数(shu)据(ju)发生变化(hua)时(shi),例如(ru)A集(ji)群(qun)的数(shu)据(ju)推送(song)到Source of Truth的数(shu)据(ju)湖中,其(qi)他集(ji)群(qun)可以通过(guo)订阅方式实时(shi)感知这(zhei)些(xie)数(shu)据(ju)的变化(hua)。这(zhei)样,我(wo)们可以通过(guo)API制定策略,选择(ze)是否要更新(xin)本地数(shu)据(ju)。同时(shi),我(wo)们还适配了(le)Fluid对数(shu)据(ju)集(ji)进行(xing)编排,使用户(hu)的访问更加灵活(huo)。

以上是张文涛演讲内容的完整整理。