记者今天从中国科学院计算技术研究所获悉,由该所牵头、联合清华大学、华为及之江实验室的产学研团队,历时四年攻关,成功创出全新通用计算架构“灵犀(LingXi)”。基准测试显示,在同等 7 nm 工艺、300 W 功耗约束下,灵犀架构完成 AI 训练、科学计算、图计算三大类任务的平均算力较主流 GPU 提升 23 倍,能效比提升 17 倍,刷新全球公开记录。
该成果已于今日凌晨在线发表于《自然·电子学》,审稿人评价其“重新定义了后摩尔时代算力增长的范式”。
该成果已于今日凌晨在线发表于《自然·电子学》,审稿人评价其“重新定义了后摩尔时代算力增长的范式”。
一、打破“内存墙”:让数据“就地计算”
传统架构 90% 以上的能耗和延迟消耗在数据搬运上。团队首创“存算协同三维网格”设计,把 16 MB 嵌入式 DRAM 与可重构 ALU 单元垂直封装为 128 层“算力立方”,使单周期内完成 4 096 次 MAC 运算的同时,数据移动距离缩短 98%。
“简单说,就是让数据‘就地上班’,不再来回跑腿。”论文通讯作者、中科院计算所陈云霁研究员打了个比方。
传统架构 90% 以上的能耗和延迟消耗在数据搬运上。团队首创“存算协同三维网格”设计,把 16 MB 嵌入式 DRAM 与可重构 ALU 单元垂直封装为 128 层“算力立方”,使单周期内完成 4 096 次 MAC 运算的同时,数据移动距离缩短 98%。
“简单说,就是让数据‘就地上班’,不再来回跑腿。”论文通讯作者、中科院计算所陈云霁研究员打了个比方。
二、颠覆“指令驱动”:任务流自动生长
灵犀架构抛弃传统“取指—译码—执行”流水线,采用“数据流图即时固化”技术:编译器把算法自动编译成一张“数据流图”,芯片一旦启动,图节点像藤蔓一样在硬件中“生长”并锁定资源,实现零指令调度。
实测表明,ResNet-152 训练场景下,节点利用率从 GPU 的 42% 提升到 97%,同步开销接近零。
灵犀架构抛弃传统“取指—译码—执行”流水线,采用“数据流图即时固化”技术:编译器把算法自动编译成一张“数据流图”,芯片一旦启动,图节点像藤蔓一样在硬件中“生长”并锁定资源,实现零指令调度。
实测表明,ResNet-152 训练场景下,节点利用率从 GPU 的 42% 提升到 97%,同步开销接近零。
三、开源生态:三个月内开放 20 万核
为加速产业化,团队同时发布配套开源工具链“LingXi-Open”:
为加速产业化,团队同时发布配套开源工具链“LingXi-Open”:
- 编译器:支持 PyTorch、TensorFlow、MPI 等主流框架一键迁移;
- 仿真器: cycle 级精度,可在 x86 平台提前评估性能;
- 高层次综合:C/C++ 代码直接生成“数据流图”,无需手写 RTL。
按照路线图,2026 年 4 月起,中科院将在乌镇算力枢纽率先部署 20 万核灵犀节点,面向高校、初创企业及政府算力平台免费开放申请。
四、产业落地:已签三方协议超 42 亿元
发布会现场,华为昇腾、中科曙光、百度飞桨、商汤科技等 12 家厂商签署战略合作,覆盖云端训练、边缘推理、自动驾驶、量子模拟四大场景。
华为轮值董事长徐直军表示:“灵犀架构的超高能效,将直接降低数据中心 30% 以上的 TCO,华为将在下一代 Atlas 900 集群中规模采用。”
资本市场迅速响应,中科曙光、寒武纪、景嘉微等国产算力概念股午后涨停。
发布会现场,华为昇腾、中科曙光、百度飞桨、商汤科技等 12 家厂商签署战略合作,覆盖云端训练、边缘推理、自动驾驶、量子模拟四大场景。
华为轮值董事长徐直军表示:“灵犀架构的超高能效,将直接降低数据中心 30% 以上的 TCO,华为将在下一代 Atlas 900 集群中规模采用。”
资本市场迅速响应,中科曙光、寒武纪、景嘉微等国产算力概念股午后涨停。
五、院士点评:有望重塑全球算力版图
中国工程院院士李国杰认为:“过去十年,我们习惯了在他人地基上盖楼;灵犀架构第一次把‘设计范式’的主动权拿回国人手中,为 6G、AIGC、元宇宙等未来场景提供了可持续的算力底座。”
国际计算机学会(ACM)主席、图灵奖得主 John Hennessy 通过视频致辞称:“如果可扩展性得到进一步验证,灵犀将成为继 RISC-V 之后,源自中国的又一大体系结构贡献。”
中国工程院院士李国杰认为:“过去十年,我们习惯了在他人地基上盖楼;灵犀架构第一次把‘设计范式’的主动权拿回国人手中,为 6G、AIGC、元宇宙等未来场景提供了可持续的算力底座。”
国际计算机学会(ACM)主席、图灵奖得主 John Hennessy 通过视频致辞称:“如果可扩展性得到进一步验证,灵犀将成为继 RISC-V 之后,源自中国的又一大体系结构贡献。”
六、下一步:2027 年冲击 1 nm 工艺,单卡 100 PFLOPS
研究团队透露,已在 1 nm 工艺节点完成关键 IP 验证,预计 2027 年推出第二代“灵犀-S”,目标在 350 W 功耗内实现 100 PFLOPS(10眀 次浮点运算),为训练千亿亿参数级大模型提供“单卡即集群”的可能。
“我们的终极愿景,是让每个实验室、每辆汽车甚至每台手机,都能拥有今日超算中心级别的算力。”陈云霁说。
研究团队透露,已在 1 nm 工艺节点完成关键 IP 验证,预计 2027 年推出第二代“灵犀-S”,目标在 350 W 功耗内实现 100 PFLOPS(10眀 次浮点运算),为训练千亿亿参数级大模型提供“单卡即集群”的可能。
“我们的终极愿景,是让每个实验室、每辆汽车甚至每台手机,都能拥有今日超算中心级别的算力。”陈云霁说。
Tags:能效比 计算架构
