智东西(公众号:zhidxcom)
作者 | 香草
编辑 | 李水青
智东(dong)西9月5日报(bao)道,今日,腾讯云(yun)(yun)在腾讯全球数(shu)字生(sheng)态(tai)大会上(shang)发布AI Infra(AI基(ji)础设施)品牌“腾讯云(yun)(yun)智算”,将旗下高性能计算HCC、星脉网络(luo)、AIGC云(yun)(yun)存储等单项产品能力整合,提供集(ji)算存网一体的高性能智算底座(zuo)。
腾讯(xun)(xun)云(yun)智算(suan)目前已(yi)服(fu)务了90%的国内(nei)大模型头部用户(hu),包括百川智能、智谱AI等。据腾讯(xun)(xun)公司副(fu)总(zong)裁(cai)、云(yun)与智慧产业(ye)事业(ye)群COO兼腾讯(xun)(xun)云(yun)总(zong)裁(cai)邱跃鹏介(jie)绍,腾讯(xun)(xun)云(yun)的集群千卡单日故(gu)障数(shu)是行业(ye)水平的1/3,数(shu)据读写效率是业(ye)界10倍(bei),千卡集群通(tong)信时间(jian)是业(ye)界一半。
在大会之前(qian),智东西与少数媒体对话了腾讯云副(fu)总裁、云计(ji)算资深技术专家沙(sha)开波,深入交(jiao)流了智算产业的市场趋势、技术难(nan)点等。
谈及AI对(dui)云计算的影响,沙开波认(ren)为(wei)长期来(lai)(lai)看,生成式AI的发(fa)展是具有确(que)定性的,大(da)模(mo)型对(dui)智算产(chan)业来(lai)(lai)说是一块很大(da)的增量,未来(lai)(lai)一定会有一个比较大(da)的爆发(fa)节点。
之所(suo)以选择在这时成立(li)腾(teng)讯(xun)云(yun)智算的(de)(de)品牌(pai),也与客户需(xu)(xu)求(qiu)有很大(da)的(de)(de)关系。另一方(fang)面,大(da)模型计(ji)算、推理等场(chang)景对云(yun)基础设施提出(chu)高要求(qiu),腾(teng)讯(xun)云(yun)作为(wei)解决方(fang)案(an)提供方(fang)需(xu)(xu)要不(bu)断打磨产(chan)品能力,从而更好地支持(chi)这一类(lei)客户的(de)(de)业务需(xu)(xu)求(qiu)。
一、集算存网一体,从设备上架到启动训练仅1天
整(zheng)体来看,腾讯云智(zhi)算(suan)(suan)是(shi)一个(ge)集算(suan)(suan)、存(cun)、网(wang)于一体的(de)高性(xing)(xing)能(neng)(neng)(neng)智(zhi)算(suan)(suan)底(di)座,整(zheng)合了腾讯云高性(xing)(xing)能(neng)(neng)(neng)计算(suan)(suan)HCC、高性(xing)(xing)能(neng)(neng)(neng)网(wang)络IHN星脉(mai)、高性(xing)(xing)能(neng)(neng)(neng)云存(cun)储、加速框架、容(rong)器、向量数据库、智(zhi)算(suan)(suan)套件等产品(pin),提供(gong)性(xing)(xing)能(neng)(neng)(neng)领先、多芯兼容(rong)、灵(ling)活部署的(de)智(zhi)算(suan)(suan)产品(pin)能(neng)(neng)(neng)力。
互(hu)联网企(qi)业、大(da)模型厂商(shang)、本地智算IDC、金融(rong)企(qi)业等是腾(teng)讯云(yun)智算现阶段的(de)主(zhu)(zhu)要客(ke)户(hu),具体到(dao)场(chang)景中除了公(gong)有(you)云(yun),还(hai)有(you)私有(you)云(yun)、专有(you)云(yun)的(de)一些应用,其中大(da)模型厂商(shang)是最(zui)主(zhu)(zhu)要的(de)客(ke)户(hu)之一。
腾讯(xun)云(yun)智算在训(xun)练启动时效上大幅(fu)提(ti)升,从设备(bei)到位到开始训(xun)练,相较业界平均的30天时间缩小(xiao)到仅1天。
在集群稳定性方(fang)面,腾讯云(yun)智算千卡(ka)单(dan)日故障卡(ka)数(shu)0.08,只有业界(jie)的(de)(de)1/6;数(shu)据(ju)读写(xie)效率上,Checkpoint聚合写(xie)入(ru)的(de)(de)峰(feng)值性达到(dao)业界(jie)10倍以上,1分钟就能(neng)完成(cheng)万(wan)卡(ka)Checkpoint读写(xie);网络(luo)交(jiao)换效率方(fang)面,通(tong)过服务器(qi)、网络(luo)端(duan)、交(jiao)换机和通(tong)讯库的(de)(de)整(zheng)体(ti)自研优化,千卡(ka)集群的(de)(de)通(tong)信时间占(zhan)比为(wei)6%,是(shi)业界(jie)平均(jun)时间占(zhan)比12%的(de)(de)一半。

▲腾讯云智算训练效率
随着(zhe)市(shi)面上的大模型参数不断增长,从百亿(yi)、千(qian)亿(yi),逐渐扩展到(dao)万亿(yi),模型训练对底层算力集(ji)群(qun)的要求也不断提(ti)升。腾讯(xun)云是如何破解集(ji)群(qun)升级难(nan)点的?
沙开波谈道,大规模(mo)计算(suan)集群的打造(zao)也是(shi)腾讯(xun)云智算(suan)产(chan)(chan)品(pin)矩阵最想解(jie)决的问题。其中(zhong),HCC高(gao)性(xing)能计算(suan)产(chan)(chan)品(pin)是(shi)专门(men)用于高(gao)性(xing)能、稳定、大规模(mo)计算(suan)集群的构建,而如(ru)何将GPU等算(suan)力高(gao)效(xiao)利(li)用起来,则用到星脉网络来提供(gong)卡(ka)之间的高(gao)效(xiao)互(hu)联,模(mo)型训练过程中(zhong)的Checkpoints高(gao)效(xiao)读写对应的是(shi)高(gao)性(xing)能存储产(chan)(chan)品(pin)。
基于(yu)这些产品整体构建的(de)计算存储(chu)网络全栈解决方案,才(cai)能(neng)帮助(zhu)客户实现大规模集群的(de)高效利用。
二、4天训完万亿参数模型,网络故障5分钟解决
具体来看腾讯云智算的产品(pin)矩阵,包括高性能(neng)计算、网络、存储产品(pin),加速框架、向量数据库以及智算套件(jian)等。

▲腾(teng)讯云(yun)智算解决方案
腾讯云HCC高性(xing)能计(ji)算集群发布(bu)于去(qu)年4月,是(shi)行业(ye)最早发布(bu)的面向大模型训练(lian)、推理的算力集群。
HCC底层采(cai)用腾讯云自研(yan)星(xing)星(xing)海服务器,可以(yi)提(ti)供3.2T的(de)(de)超高互联带宽,算力性能比上一代提(ti)升3倍。万(wan)亿参数(shu)的(de)(de)混元NLP大(da)模型训(xun)(xun)练(lian)(lian),最快4天就能训(xun)(xun)练(lian)(lian)完(wan)成(cheng)。在(zai)稳定(ding)性方面,HCC千卡(ka)单日故障卡(ka)数(shu)为0.08,无中断(duan)训(xun)(xun)练(lian)(lian)时长达到300小(xiao)时,是业界平(ping)均(jun)市场50小(xiao)时的(de)(de)6倍。
腾讯云星脉网(wang)(wang)络是其自研的高性能(neng)计算网(wang)(wang)络IHN,支持超10万卡大(da)规模组网(wang)(wang)、多型号(hao)异(yi)构GPU接入,网(wang)(wang)络通信效率(lv)比(bi)上(shang)一代提升(sheng)60%,大(da)模型训练效率(lv)提升(sheng)20%。
星(xing)脉网络具备(bei)高效的故(gu)障处理能力,在万卡(ka)集群下,网络故(gu)障可实现1分(fen)(fen)钟(zhong)(zhong)发(fa)现,3分(fen)(fen)钟(zhong)(zhong)定位,5分(fen)(fen)钟(zhong)(zhong)解决。
据(ju)沙开波介绍,这是因为(wei)星(xing)脉(mai)网络通过一些(xie)流(liu)量(liang)和拓(tuo)扑的(de)(de)自动感(gan)知,进(jin)行流(liu)量(liang)替换中心(xin)的(de)(de)调度(du),从(cong)而提升(sheng)整个网络的(de)(de)吞吐,并(bing)在发现故障的(de)(de)时(shi)候迅速(su)定位到是哪个链(lian)(lian)路出的(de)(de)问题,对(dui)链(lian)(lian)路进(jin)行调度(du)、异常处(chu)理(li),让整个训练可以(yi)不中断(duan)或者少中断(duan)。
腾讯云(yun)的AIGC云(yun)存储解决方案包括CFS Turbo、对(dui)象存储COS、数(shu)据加(jia)速(su)器GooseFS以及数(shu)据处理(li)CI等,针对(dui)AI大(da)模型(xing)数(shu)据采集清洗(xi)、训(xun)(xun)练、推理(li)、数(shu)据智理(li)全(quan)(quan)流(liu)程(cheng),提供全(quan)(quan)面高效的云(yun)存储支持(chi),可将大(da)模型(xing)的数(shu)据清洗(xi)和训(xun)(xun)练效率提升一倍。
三、千卡集群每年降本2000万,助力传统企业AI转型
目前,腾讯云智算可以灵(ling)活地(di)支持公有云、私有云以及分布式云的输出,成为(wei)了国内90%头部(bu)大(da)(da)模型厂商的选择,也帮助一大(da)(da)批IDC厂商实现(xian)了AIDC转型。
沙(sha)开(kai)波解读了腾讯云智算具体的(de)落地案例(li),公有云的(de)一些大模型的(de)客户在(zai)使用其(qi)完整的(de)智算解决方(fang)案后,一个千卡(ka)集群每年的(de)成本相比过去(qu)传统(tong)的(de)方(fang)式可(ke)以降低2000万(wan)。
例(li)如某社区(qu)电(dian)商的(de)企业(ye),在(zai)评论分(fen)析、图像(xiang)分(fen)类等OCR、CV业(ye)务(wu)上应用腾(teng)讯云智算解决方案,在(zai)去年下半年从海外的(de)芯(xin)片(pian)更换(huan)成了腾(teng)讯云公有云上的(de)国(guo)产(chan)芯(xin)片(pian)。在(zai)主(zhu)要业(ye)务(wu)指标(biao)不变的(de)前提下,只用了21天就完成了替换(huan),其中两周左右用来(lai)适配(pei)模型,一周左右改造推理框架,对不同芯(xin)片(pian)的(de)适配(pei)非常高效(xiao)灵(ling)活。

▲腾讯云智算客(ke)户价值
在私有(you)云(yun)的(de)落地上,腾讯云(yun)智算主(zhu)要的(de)客(ke)户是(shi)传统(tong)的(de)IDC公司,它们原(yuan)本具(ju)有(you)机房、硬件(jian)、网(wang)络优势,但(dan)是(shi)缺少云(yun)、软件(jian)解(jie)决方案。
具体案例是,某传统IDC企业通过与腾讯云(yun)智(zhi)算合(he)作,组(zu)建(jian)新一(yi)代具备AI Infra基础能(neng)力的智(zhi)算平台(tai),并通过租(zu)户、计费(fei)管理等能(neng)力,为(wei)终(zhong)端(duan)用(yong)户提供一(yi)站(zhan)式自(zi)主用(yong)云(yun)服务,实(shi)现到AIDC的转型。该客户还获得了今年的可信云(yun)大会用(yong)户最佳实(shi)践奖。
四、谈智算产业五大趋势,保持兼容、开放、公私一体
纵观整(zheng)个智算产(chan)业,正(zheng)处于快速(su)发展的阶段,从产(chan)业规模、应用场景到技术(shu)创新都在不断拓展。沙开(kai)波与我们分享了腾讯云对未来趋势的看法(fa),主(zhu)要有五个层面(mian)。
首先(xian)是大(da)模型的(de)规模仍在持续(xu)增加,这对AI Infra要求(qiu)也越来越高(gao),需要更大(da)的(de)算(suan)力集群,如何在更大(da)集群下确保(bao)稳(wen)定性(xing)、应用性(xing)可(ke)以满足(zu)要求(qiu)是主(zhu)要命题。
其次是(shi)多芯(xin)(xin)的(de)能力(li)。多芯(xin)(xin)一(yi)方面(mian)来源于供给端的(de)挑战,需(xu)要AI Infra产品去(qu)适配(pei)各种芯(xin)(xin)片的(de)能力(li),比如金融等行业的(de)一(yi)些央(yang)国(guo)企会有(you)国(guo)产化(hua)诉(su)求(qiu),需(xu)要云厂商去(qu)兼容(rong)、适配(pei)国(guo)产化(hua)的(de)芯(xin)(xin)片。
第三是现在(zai)整体AI应用,处(chu)于一个(ge)快速发展(zhan)的阶段(duan),在(zai)应用落地(di)层面仍(reng)处(chu)于前期,未来可能(neng)会越(yue)来越(yue)快。从这(zhei)个(ge)角度看,未来的推理比(bi)重可能(neng)也会逐步增(zeng)加。
第四是AI场景变得越(yue)来越(yue)广泛,很多行业还在探索的(de)阶段。从腾讯云智算(suan)和很多客户的(de)交流中(zhong),可以(yi)看出他(ta)们在这(zhei)方面都有(you)很强的(de)诉(su)求,未来肯定会(hui)有(you)一些创新的(de)业务应用落地。
最(zui)后是对(dui)数据(ju)安全的需(xu)求强烈。对(dui)很多国内企(qi)业(ye)(ye)来说,用于(yu)训练推理的业(ye)(ye)务数据(ju),只能在(zai)自己(ji)的机房里面(mian)完成(cheng),这对(dui)产品能力的部署提出比较多诉求。
谈及腾讯(xun)云(yun)智(zhi)算的(de)整(zheng)体战略(lve)目标(biao),沙开波称(cheng)腾讯(xun)云(yun)从ChatGPT出现后就(jiu)一直(zhi)在打磨产品(pin),在原来的(de)通(tong)用计算、云(yun)上去(qu)演进(jin),让原有(you)的(de)云(yun)基(ji)础设施能更加(jia)满足大模型时代对训练、推理场景的(de)诉求。
此(ci)次(ci)发布腾讯云智算(suan)品牌,主要还(hai)是出于把过(guo)去一系列的工作组合(he)起来(lai),变成一个(ge)整体解决(jue)方案对外(wai)提供,向行(xing)业(ye)传递更准(zhun)确、更完整的信息。
相较其他(ta)友商,腾讯云智算品牌的主(zhu)要战略是整体的兼容(rong)性、开放(fang)性,以及公私一体。
结语:生成式AI推动智算产业飞速发展
凭(ping)借集算存网(wang)一体的高性能智(zhi)算底座,腾讯云智(zhi)算整合了(le)多项优势(shi)产品(pin),展现(xian)了(le)在智(zhi)算领域的技术能力和(he)潜力。
随着生成(cheng)式(shi)(shi)AI的(de)持续发(fa)展,智(zhi)算(suan)产业(ye)也(ye)许会乘(cheng)着这股(gu)大模(mo)型的(de)风“起飞”。腾讯云(yun)智(zhi)算(suan)以(yi)其兼(jian)容(rong)性、开放(fang)性以(yi)及(ji)公私(si)(si)一体的(de)战(zhan)略,不仅灵活地(di)支持公有云(yun)、私(si)(si)有云(yun)以(yi)及(ji)分布式(shi)(shi)云(yun)的(de)输出,同(tong)时也(ye)成(cheng)为了国内(nei)大量大模(mo)型厂商(shang)的(de)选择,帮助一大批IDC厂商(shang)实现向AIDC的(de)转型。