DeepSeek通过软硬件协(xie)同的的全栈优化策略,在有限的硬件资(zi)源下实现了极致的性能提升。

比(bi)如利(li)用FlashMLA技(ji)(ji)术针对多头潜(qian)在注意力进(jin)行优(you)化(hua),能(neng)够(gou)充分释放(fang)GPU算力。此外,DeepSeek还通(tong)过底层编(bian)程语言PTX直(zhi)接对硬件(jian)资源进(jin)行调配,实现了寄存器(qi)分配、线(xian)程调度的细粒度优(you)化(hua)。在软件(jian)层面,DeepSeek通(tong)过FP8混合精(jing)度训练(lian)、KV Cache缓存优(you)化(hua)、并行计算等技(ji)(ji)术,进(jin)一步提(ti)升(sheng)了系统(tong)的整体效率。

DeepSeek的(de)(de)成功,充分证(zheng)明了(le)软(ruan)硬件协同优(you)化的(de)(de)巨(ju)大潜(qian)力,也为(wei)AI Infra的(de)(de)未(wei)来技术发展提供了(le)新的(de)(de)思考方(fang)向(xiang)和借鉴思路。

3月18日19点智猩猩「DeepSeek大解读」系列公开课第5期将开讲,由清华大学电子工程系博士后曾书霖主讲,主题为《DeepSeek对软硬件协同优化的启示与思考》。

曾书(shu)霖博(bo)士主要(yao)从事软硬(ying)协同优(you)化研究和(he)AI加速器设计,实现了全球首个多模(mo)态大(da)模(mo)型推理LPU IP,并首次在单卡FPGA上实现7B大(da)模(mo)型和(he)文(wen)生视频的(de)端到端推理,获得了FPGA 2025最(zui)佳论文(wen)。

本次(ci)公开课,曾书(shu)霖博士首先(xian)会(hui)分享DeepSeek在软硬件协(xie)同(tong)优化方面(mian)的创新和(he)思考,之后会(hui)围(wei)绕大语言模型(xing)推理(li) IP FlightLLM、视(shi)频生成大模型(xing)推理(li) IP FlightVGM,阐(chan)述团队基于FPGA的大模型(xing)软硬件协(xie)同(tong)工作。最后,曾书(shu)霖博士还将深(shen)入讲解面(mian)向(xiang)智能终端的推理(li)LPU IP设计。

从DeepSeek看软硬件协同优化,兼谈推理LPU IP设计|清华大学博士后曾书霖主讲预告

公开课内容

主题:DeepSeek对软硬件协同优化的启示与思考
提纲:
1、从DeepSeek看软硬件协同优化
2、基于FPGA的大模型软硬件协同
3、面向智能终(zhong)端(duan)的推理LPU IP设计

主讲人

曾书霖,清华大学电子工程系博(bo)士(shi)(shi)、博(bo)士(shi)(shi)后,博(bo)士(shi)(shi)期(qi)(qi)间主要从事软硬协(xie)同优化研究(jiu)和AI加速(su)器设计,发表高水平(ping)国(guo)际会(hui)议/期(qi)(qi)刊论文20余篇。实现全球首(shou)个多模态大模型(xing)推理LPU IP,首(shou)次在单卡FPGA上实现7B大模型(xing)和文生视频的端(duan)到端(duan)推理,获FPGA 2025最佳(jia)论文。

直播时间

3月18日19:00-20:00