智东西(公众号:zhidxcom)
作者 | 三北
编辑 | 漠影
AI上市公司深圳云天励飞,最近在算力产品及服务业务板块完成诸多大额订单。
首先是11月5日,云天励飞宣布已完成近16亿元的(de)(de)AI大单的(de)(de)交(jiao)付工(gong)作(zuo),为(wei)北京德元方(fang)惠科技开发有(you)限责任公(gong)司(si)(简称“德元方(fang)惠”)提供AI训(xun)练及推理(li)算力(li)服务。同时,第一(yi)批算力(li)服务(对应(ying)合(he)同中约60%的(de)(de)算力(li)规模)的(de)(de)验收相关(guan)工(gong)作(zuo)已完成,上线日期为(wei)2024年10月1日。

▲云天励(li)飞(fei)最(zui)新(xin)公告部(bu)分截(jie)取
而就在不久前的9月,云天励飞刚中标了约1.3亿元的(de)“天府智(zhi)算中心(一(yi)期)项(xiang)目设备采购及监理服务(wu)采购项(xiang)目”,连下(xia)两城。
自去(qu)年以(yi)来(lai),大模型(xing)催生(sheng)了大量(liang)训练(lian)及(ji)推理(li)算力需求,全球各(ge)路云计算大厂(chang)、服务器厂(chang)商、AI企业以(yi)及(ji)一(yi)些(xie)跨界玩家纷(fen)纷(fen)开始进(jin)入智算行业。
作为一家做AI算(suan)法(fa)起(qi)家的企业,云天励飞拿(na)下这些项目的背后(hou),有什么样的技术和商业逻辑?这又能为AI企业同行(xing)带(dai)来什么样的启示(shi)?
通(tong)过对话(hua)云天(tian)励(li)飞副CFO兼资本(ben)(ben)中心(xin)总经理陈腾宇,本(ben)(ben)文(wen)对此进行(xing)了深入探讨。
一、大模型狂飙500天,训练及推理算力需求激增
自2023年大模型爆火(huo)以来,催生(sheng)了大量训练(lian)及推理算力需求。
大模(mo)型朝(chao)超(chao)大参数规模(mo)发展,OpenAI提出(chu)的百万(wan)卡(ka)的智(zhi)算集群思路已(yi)经(jing)被验证,推动智(zhi)算中(zhong)心(xin)如雨后春笋般涌现(xian)。根据工(gong)信部(bu)最新数据,截(jie)至2024年(nian)上半年(nian),国内已(yi)经(jing)建设和正在建设的智(zhi)算中(zhong)心(xin)超(chao)过(guo)250个。2024年(nian)上半年(nian)智(zhi)算中(zhong)心(xin)招投(tou)标(biao)相关事件(jian)791起,同比增长高达(da)407.1%。
提早预判到这样的趋势,云天励飞于2023年初涉足异构算力领域,这是国内AI企业最早布局智算的步伐之一。陈腾宇向智东西谈及当(dang)时的(de)契机:短期(qi)来看,云(yun)天(tian)励(li)飞(fei)在(zai)研发过程(cheng)中有(you)大量的(de)技术(shu)沉淀可以(yi)支撑(cheng)异构算力集群的(de)高效(xiao)率运行,而其(qi)盈利(li)能力亦较为可观;另一方面,训练背(bei)后(hou)的(de)推(tui)(tui)理需(xu)求(qiu)是(shi)更大的(de)蓝(lan)海,将给云(yun)天(tian)励(li)飞(fei)自研推(tui)(tui)理芯片提供广阔的(de)应(ying)用场景。
筹谋一(yi)年多,时间来到2024年7月,云天励飞与德(de)元(yuan)方惠(hui)一(yi)举签下16亿元(yuan)的AI大(da)单,在(zai)产业里(li)一(yi)战成名(ming)。

按照合约,云天励飞将为后者提供(gong)智能(neng)算力调度(du)及(ji)AI大模型开(kai)发服(fu)务平台(tai)配(pei)套服(fu)务,算力总规模约4000PFLOPS,用(yong)于大模型训练及(ji)推理。
项目规模之大、业务之聚焦,很多业内人士好奇,云天励飞能搞定这个项目吗?
陈腾宇告诉智东西,目前这一项目已全面完成交付,并进入调试及验收阶段。同时,项目商业化也不成问题,根据云天励飞官方公告,这一项目未来三年预计每年为公司新增营收约5亿元,三年累计产生利润5.39亿元。

今(jin)年9月,云天励飞紧接着再下(xia)一城,中标了约1.3亿元(yuan)的天府智(zhi)算中心项(xiang)目。
据悉,该项(xiang)目目前也已经进入交付过(guo)程,预计进一步为云天励飞的业绩带来直接收益。
大项目纷纷交付,标志着云天励飞异构算力业务步入正轨,成为一条新的增长曲线。
可以看到,相比国内其他AI领域同行,云天励飞是在该领域跑得较快的AI企业。究其原因,首先还是因为公司较快地看到并抓住了这波AI机遇。
但提早布局AI算力的企业不在少数,为什么云天励飞能够突围?
二、为什么是云天励飞?左手算法,右手芯片
AI算力(li)混战局(ju)面(mian)持续已一年(nian)多。
自(zi)去年以来,尽(jin)管(guan)云(yun)巨头相(xiang)继推出令人眼馋(chan)的(de)大(da)模(mo)型训推“全家桶”,但实际(ji)可用的(de)算(suan)力仍是稀缺资源,服务(wu)器厂商、AI企业都在布局智算(suan),甚(shen)至跨(kua)界玩家都入局了,竞争好(hao)不激烈。
之所以能够在群雄混战的AI算力市场站住脚,陈腾宇认为,云天励飞的核心竞争力还在于技术储备,主要体现在算法和芯片两大方面。
1、自研大模型经验沉淀工具,助客户提升算力利用效率
在算法层面,云天励飞于2023年推出了自研千亿级“云天天书”大模型,并在大模型的研发过程中积累了一系列算力调优、提升模型训练效率的技术平台和相应工具。
这些经验及工具都被云天励飞沉淀到产品和服务中,可帮助客户提升模型训练及算力利用效率,以更低成本训练大模型。
具体到集群管理方面,云天励飞智能训(xun)练(lian)平(ping)台及算力调度平(ping)台,能够按任务(wu)调度到(dao)卡,并进(jin)行任务(wu)管理、任务(wu)编排、训(xun)练(lian)告警、大模(mo)型断点续训(xun)。

此(ci)外,其(qi)数(shu)(shu)据管(guan)理(li)(li)(DataHub)支持数(shu)(shu)据可视化(hua)、挖掘、治理(li)(li)等(deng)(deng)多维管(guan)理(li)(li),在(zai)保(bao)证(zheng)数(shu)(shu)据安全性的基础上(shang)实(shi)现数(shu)(shu)据资产化(hua);此(ci)外在(zai)集(ji)群管(guan)理(li)(li)中(zhong)的通信(xin)优化(hua)、日志集(ji)群、监控告警等(deng)(deng)方面也(ye)积累了(le)多个工具链。

具体到软件(jian)平(ping)台方面,云天励飞推(tui)出了智(zhi)能算(suan)法(fa)标注(zhu)平(ping)台,为算(suan)法(fa)训(xun)练提供了可靠的底层数据支(zhi)持,可支(zhi)持图像和文本(ben)自动(dong)化标注(zhu),据称相比人工标注(zhu)效率(lv)提高40%左(zuo)右。

除此之(zhi)外,支(zhi)持大(da)(da)模型负载均衡的(de)部署平台(tai)(tai),支(zhi)持在多个主流硬件平台(tai)(tai)进行零(ling)代码、自(zi)动(dong)化的(de)模型发布(bu)的(de)模型发布(bu)平台(tai)(tai),提(ti)供完(wan)整工具和资源的(de)模型评测平台(tai)(tai),全面(mian)覆盖(gai)内(nei)容审核过(guo)滤的(de)智(zhi)能内(nei)容审核平台(tai)(tai)等,都可以大(da)(da)大(da)(da)提(ti)高算法训练效率(lv)。

2、算法芯片化,自研大模型芯片提供高效推理服务
在芯片层面,云天励飞基于对AI算法技术特点及行业场景计算需求的理解,通过自定义指令集、处理器架构及工具链的协同设计,实现算法技术芯片化,构建了神经网络处理器平台,可(ke)以支持(chi)其算力产(chan)品及服(fu)务。
同时,云天励飞已具备自研的推理卡,依托创(chuang)新的D2D chiplet架构,可(ke)承载(zai)大(da)(da)模型应用落地的大(da)(da)规模推理计算。据悉,从2022年开(kai)始其就开(kai)始针(zhen)对大(da)(da)模型的Transformer架构做优(you)化,实现流片,可(ke)见其对市场感知的前瞻(zhan)性。
尽管在(zai)(zai)软件生(sheng)态上还(hai)存(cun)在(zai)(zai)差距,但与(yu)海外高(gao)性能算(suan)力相比(bi)较,一(yi)(yi)些国产推(tui)(tui)理芯(xin)片(pian)已(yi)经在(zai)(zai)某些专项上占据(ju)优势。比(bi)如说云天励飞X6000一(yi)(yi)体机,采用Mesh互联技术,在(zai)(zai)多卡(ka)互联时可(ke)实现(xian)存(cun)储(chu)共享、最大化发挥带宽优势,从而提升大模型推(tui)(tui)理效(xiao)率(lv)(lv),针(zhen)对70B模型的推(tui)(tui)理效(xiao)率(lv)(lv)已(yi)达60 Tokens/s,而针(zhen)对MoE架构模型,如mistral08*7B,推(tui)(tui)理效(xiao)率(lv)(lv)达到260 Tokens/s。
具体(ti)到大模型推理的(de)实务中,很多(duo)客户更多(duo)关注(zhu)的(de)是带(dai)宽(kuan)能(neng)不能(neng)充分(fen)利用起来这个(ge)问题。云天励飞在卡(ka)间(jian)互联(lian)、堆叠式设(she)计(ji)等(deng)多(duo)方面的(de)研发储备,使其能(neng)够(gou)满足客户的(de)这一核(he)心需求(qiu)。
可以看到,之所以能够拿下近20亿元大单,还因为云天励飞建立了双重护城河:左手算法,右手芯片,使其在群雄(xiong)混(hun)战的AI算力市场杀出(chu)一(yi)条(tiao)血(xue)路(lu)。
三、技术立身,做最懂大模型的算力产品及服务
纵观算力产(chan)业,动(dong)辄一个项目的金额达数亿(yi)甚至数十(shi)亿(yi)元,周期长、工程量大、后(hou)续运营服务需(xu)求高。
针对这样的业务特征,陈腾宇告诉智东西,对于大客户来说,他们在选择算力服务提供商时,首先还是要考虑这家公司是否靠谱。主要考察的方面除了技术储备,还包括行业经验、供应链和交付能力、运营稳定性及资金实力等一系列综合能力。
而随着百模大战继续推进,集群运营面临的最大挑战还在于整体的运营能力,以及随着市场趋势变化,通过软硬件协同迭代,不断满足客户的新需求。
谈及云天励飞在这些“软实力”方面的储备,陈腾宇谈道,云天励飞已经搭建能力板块较为齐全的业务团队,包含(han)技术(shu)研发、运营及销(xiao)售(shou)、技术(shu)运维及交(jiao)付(fu)等人员,保障业务顺利开展、进行(xing)。
同时,该业务板块已有规模化落地。根据云(yun)天励飞官方公(gong)告,其(qi)已落地西(xi)南、华南区域三个高性能算力(li)集(ji)群,运(yun)营(ying)算力(li)规模(mo)接(jie)近5000P。在拿下两个巨(ju)额大单前,截至2024年(nian)5月末(mo),公(gong)司(si)已搭建(jian)异(yi)构计算集(ji)群算力(li)超(chao)800P。

此外,云天励飞还积累了多个行业的客户资源。通过前期业(ye)务拓(tuo)展(zhan)触达、上下(xia)游生态搭建等(deng)方式,云天励飞积(ji)累(lei)较多(duo)具(ju)备大模型训练及推理需求客(ke)(ke)户,包(bao)括AI初创公司、科研院所、互(hu)联网企(qi)业(ye)、自动驾驶企(qi)业(ye)、运营商等(deng)客(ke)(ke)户资源。
可以看到,正(zheng)是(shi)这(zhei)样的(de)团队储备(bei)、落地案例及客户资源积累,配合“算法芯片化”战略及技术储备(bei),让云(yun)天励飞的(de)异(yi)构算力业(ye)务稳步(bu)发展起来。
对于AI行业来说,云天励飞开辟了一条AI企业在大模型时代的新出路——不止于算法攻关,而是将算法与算力经验结合布局算力产品和服务,这对AI同行(xing)有一定(ding)的启(qi)迪作(zuo)用(yong)。
结语:顺势而为,构筑AI企业新价值
回顾过去一(yi)年多(duo),AI算力在(zai)“百模大战”狂潮之中成为竞争焦点;站在(zai)现在(zai)看(kan)未来,行业已经历(li)过一(yi)波(bo)大浪淘沙(sha),突(tu)出(chu)重围的(de)玩(wan)家如(ru)云天励飞(fei),正真枪实剑(jian)披挂上阵,构筑AI企业的(de)新价(jia)值壁垒。
智算中心正从“建(jian)起(qi)来”走向“用起(qi)来”,也对云(yun)天励飞们提出了新挑战。“我们的(de)能(neng)力(li)构建(jian)和商业化(hua)已经做得(de)比(bi)较(jiao)好(hao)了,下一步我们会(hui)继续(xu)做深,绑定多个(ge)行业龙头,尽(jin)可能(neng)地挖掘客户需求(qiu),同时借用他(ta)们的(de)行业经验去迭代自(zi)己(ji)的(de)推理算力(li)。”陈腾宇(yu)说。