DeepSeek R1具(ju)有(you)强大(da)的(de)推(tui)理(li)能(neng)力(li),能(neng)够(gou)通过多(duo)次(ci)(ci)推(tui)理(li)和思考(kao)得出问题的(de)最佳(jia)答案。但(dan)其中每(mei)一步推(tui)理(li)和思考(kao)都会消耗大(da)量的(de)计算(suan)资(zi)源(yuan),进而提高了单次(ci)(ci)推(tui)理(li)的(de)算(suan)力(li)成本(ben)。如何缩(suo)减DeepSeek R1的(de)推(tui)理(li)算(suan)力(li)成本(ben),降低私有(you)化部(bu)署门槛,是(shi)全行业(ye)共同面(mian)临的(de)难(nan)题。

今年3月,清(qing)程极智联合清(qing)华大(da)学翟季(ji)冬(dong)教(jiao)授团队开源了大(da)模(mo)型(xing)推(tui)理(li)引(yin)擎赤兔(tu)(tu)(Chitu),率先实现(xian)了在非(fei)H卡设备运行原生(sheng)FP8模(mo)型(xing)突破。实测数(shu)据(ju)显(xian)示,使用赤兔(tu)(tu)引(yin)擎在H800集(ji)群上部署(shu)满血版DeepSeek R1,相(xiang)比于(yu)vLLM部署(shu)方案,能(neng)够(gou)在减(jian)少50%的GPU使用量(liang)的同(tong)时,将输出速度(du)提升3.15倍。这意味(wei)着通(tong)过赤兔(tu)(tu)推(tui)理(li)引(yin)擎,企业(ye)可以通(tong)过更(geng)少的硬件(jian)资源,实现(xian)更(geng)高的性能(neng),大(da)幅降低推(tui)理(li)模(mo)型(xing)的私有化部署(shu)成本。

3月27日19点智猩猩「DeepSeek大解读」系列公开课第6期将开讲,由清程极智联合创始人唐适之博士主讲,主题为《低成本DeepSeek R1推理挑战与赤兔推理引擎实践》。

本(ben)次公开(kai)课,唐(tang)(tang)适之(zhi)博士首先(xian)会(hui)对DeepSeek R1与(yu)日益增长(zhang)的(de)算力(li)需求(qiu)进行分析(xi),并探讨有限硬(ying)(ying)件资源下的(de)大(da)模(mo)(mo)型推(tui)(tui)理取(qu)舍之(zhi)道。之(zhi)后,唐(tang)(tang)适之(zhi)博士还会(hui)深(shen)入讲解(jie)开(kai)源大(da)模(mo)(mo)型推(tui)(tui)理引擎“赤(chi)兔”如(ru)何(he)降低DeepSeek R1推(tui)(tui)理所(suo)需的(de)硬(ying)(ying)件成(cheng)本(ben),尤(you)其是在更广泛GPU上的(de)FP8数据类(lei)型的(de)推(tui)(tui)理优化实践。

低成本DeepSeek R1推理挑战与赤兔推理引擎实践|清程极智联合创始人唐适之主讲预告

公开课内容

主题:低成本 DeepSeek R1 推理挑战与赤兔推理引擎实践
提纲:
1、DeepSeek R1 与日益增长的算力需求
2、有限硬件资源下的大模型推理取舍
3、“赤兔”方案:更广泛(fan) GPU 上的 FP8 推理优化

主讲人

唐适(shi)之(zhi),清(qing)(qing)程极智(zhi)联合创始人,清(qing)(qing)华大(da)学(xue)(xue)计算(suan)(suan)机专业(ye)学(xue)(xue)士、博士,负责清(qing)(qing)程极智(zhi)并行训练(lian)、推理框(kuang)架、算(suan)(suan)子优化等各类(lei)技术研(yan)发。唐适(shi)之(zhi)曾(ceng)获全(quan)国信(xin)息学(xue)(xue)奥赛 NOI 金牌,曾(ceng)为(wei)清(qing)(qing)华大(da)学(xue)(xue)国际(ji)超算(suan)(suan)竞赛 ASC/ISC/SC 三冠团队成员,主要的学(xue)(xue)术研(yan)究(jiu)领域包括编程语言、异(yi)构计算(suan)(suan)等,代表工作为(wei) FreeTensor 编程框(kuang)架。

直播时间

3月27日19:00