上交大和辉羲把LLM刻进ROM!推理性能冲2万token/s,GPU时代终结?

📅 发布时间:2026/7/4 16:57:47 👁️ 浏览次数:
上交大和辉羲把LLM刻进ROM!推理性能冲2万token/s,GPU时代终结?
当硅谷Taalas将大模型「物理焊死」进芯片引爆全球半导体圈来自上海交大、辉羲智能与微软亚洲研究院的研究团队早已走得更远——他们用ROMSRAM异构架构将端侧LLM推理速度推至20,000 tokens/s端侧算力直接起飞。近期硅谷初创公司 Taalas 提出的「模型即芯片Model-on-Chip」方案引发了全球半导体业界对「硬核 AI」的深度反思。他们绕开了所有热门概念直接把AI大模型物理焊死在硅片里芯片运行Llama 3.1 8B的速度达到了17,000tokens/秒。足足比业界最顶端的英伟达GPU提升了将近10倍英伟达这边也没闲着GTC 2026前夕英伟达释放明确信号即将发布的Feynman架构将与Groq LPU技术实现深度融合。LPU架构通过预编排的固定指令流驱动模型摒弃传统HBM主存转而采用片上SRAM存储权重大幅突破了原有的访问速度与带宽瓶颈。这些都预示着在Scaling Law驱动的大模型时代传统的通用指令集正成为锁死算力的枷锁。如何从物理层面彻底击碎困扰大语言模型LLM部署的「内存墙」已成为定义生成式 AI 下半场的关键。现有端侧存储方案不能同时满足LLM推理的存储容量和访存带宽需求事实上针对 LLM 的访存特性来自上海交大、辉羲智能及微软亚洲研究院的研究团队早已展开了一场存储层次结构的创新研究。通过ROMA与TOM系列研究团队展现了与 Taalas 不谋而合的架构洞察通过对只读存储ROM的颠覆性应用与「算法-架构」深度协同成功将 LLM 的端侧推理速度推向 20,000 tokens/s 的水平这一突破性成果在具身智能等前沿领域展现了巨大的应用潜力。ROMA打破传统存储层次重塑端侧能效在大模型端侧部署的实战中传统的内存层次结构正面临前所未有的挑战。研究团队提出的 ROMARead-Only-Memory-based Accelerator 架构针对端侧场景的特殊需求给出了一套系统的解法。ROMA的计算架构采用ROMSRAM的方案1. 引入只读存储ROM从源头解决访存能效研究团队发现大模型推理的能效瓶颈主要源于权重数据在外部内存如 LPDDR与计算单元之间的频繁搬运。ROMA 另辟蹊径利用高集成密度、低功耗的只读存储ROM作为权重的存储载体将模型参数从源头上固化在芯片内部大幅度降低了访存功耗。2. QLoRA 赋能灵活性在「固化」中寻找演进空间完全硬连线的芯片往往难以应对算法的快速迭代。ROMA 巧妙地引入了 QLoRA 机制通过 ROM基座模型 SRAMLoRA 适配器 的混合设计确保了芯片在拥有「硬核」性能的同时依然保留了强大的应用灵活性。开发者只需下发极小规模的 LoRA 插件即可让固化的基座模型在不同垂直任务间快速切换。3. 架构与物理设计协同极致的物理实现为了实现真正的片上全模型存储团队进行了深度的 架构与物理设计协同优化。通过独创的 B-ROM 设计将计算单元与存储阵列进行紧耦合的物理布局极大地缩短了信号传输路径。这种协同设计让 ROMA 在有限的芯片面积内实现了对数亿参数模型的高效容纳与实时调度。最终ROMA的规格和指标与Taalas非常接近ROMA采用7nm工艺库芯片面积约 500 mm²可以完整容纳4bit LLaMA3.2-3B 或者 2bit LLaMA3-8B推理性能达到20,000 tokens/s而同样采用ROMSRAM的方案的Taalas是6nm工艺面积约800mm²可容下3-6bit llama3.1-8B性能接近20,000 tokens/s。TOM深度挖掘三值化大模型带来的存储红利在 ROMA 的基础上最新的 TOMTernary-Oriented Memory 架构进一步将优化的触角延伸到了算法底层的存储特征中把ROMA扩展到BitNet/Ternary量化这个场景利用低比特权重的0值稀疏性继续提升了ROM的存储密度。低比特模型0值分布特征带来ROM存储密度提升潜力1. 捕捉 BitNet 的硬件友好性开启「以逻辑代存储」范式研究团队发现以 BitNet-b1.58 为代表的三值化{-1, 0, 1}模型展现出了极佳的硬件友好性 。基于这一发现TOM 摒弃了传统的存储阵列通过逻辑合成技术直接利用标准逻辑门实现模型权重的固化存储 。在这种新范式下硬件能够直接识别并物理消除权重中「0」元素的存储电路 。这一极致收益的实现得益于三值模型中零值参数本就占据绝大多数的天然稀疏特性加上定制的编码方法使用「10」而非「11」来表示 -1从而大幅拉高了 0-bit 的整体占比从根本上降低了物理开销 。2. 存储逻辑的深度合并与复用极限压缩芯片面积为了进一步推高面积效率TOM 引入了精细的逻辑优化策略通过识别并提取不同权重存储逻辑中的公共子序列对重复的逻辑门进行深度合并与复用。这种从物理层对存储逻辑进行的「极限去重」使得 TOM 相比 ROMA 实现了片上存储密度的数倍提升与芯片面积的大幅削减。这也再次印证了算法-硬件联合设计在突破 AI 算力边界时的核心重要性。具身智能与极端场景ROM 架构的「降维打击」「模型即芯片」方案的兴起精准捕捉到了当前端侧应用的两大痛点1. 具身智能的「实时确定性」在机器人、无人设备等具身智能场景中毫秒级的响应延迟往往决定了系统的物理安全性。ROMA 提供的 20,000 tokens/s 吞吐量是为了提供一种高确定性的实时反馈。这让机器人能够像拥有脊髓反射一样在感知到复杂的物理环境变化时瞬时做出语义理解与避障决策。2. 极端环境下的生存优势深海与火星在深海探测器、火星漫游车等极端场景下DRAM 等易失性存储器不仅能耗高且容易受到高能射线干扰产生软错误。ROM 架构具有天然的稳定性和抗辐射性。在能源匮乏、通信隔绝的极端环境下搭载 ROMA/TOM 架构的设备依然能独立、稳定地完成复杂的智能任务且待机功耗极低。这使得大模型能够真正走出实验室进入人类探索的「无人区」。3. 智能终端的隐私「防火墙」对于手机端本地文本处理等场景用户对模型基座的频繁更新需求并不高但对隐私极其敏感。将成熟、稳定的模型能力固化在本地隔离电路中不仅免去了频繁联网的能耗更在物理层面上杜绝了数据外泄的风险。结语开启端侧内存层次结构的新纪元从 Taalas 的破圈到研究团队ROMA与TOM系列工作的深度探索我们正见证 AI 硬件架构的一个重要转向。这种引入ROMSRAM异构存储层次结构的创新结合对三值逻辑存储特性的极致挖掘为端侧大模型部署提供了一条全新的进路。ROMA与TOM系列研究的诞生植根于“模型即芯片”的设计思维。团队的这种强调算法与硬件深度耦合的思维来源最早可追溯至微软亚洲研究院MSRA时期。核心作者中王文强与曹士杰曾先后作为MSRA实习生在徐宁仪老师指导下开展研究积淀了深厚的工业界系统经验张毅佳在上海交大攻读博士期间师从徐老师并先后在 MSRA 系统组与辉羲智能实习。研究团队长期从事算法-芯片联合设计的研究在AI芯片架构设计、大模型轻量化等方面有丰富经验。这种由资深架构师、企业研究员与学术新生代构成的多重纽带让团队得以将前沿的实战思维与学术界的理论创新高效结合在大模型范式下实现了从通用计算向 LLM 原生架构的协同突破。团队介绍关于上交大团队团队来自上海交通大学计算机学院定制计算中心Customized Computing Center - CCCccc.sjtu.edu.cnCCC聚焦于解决数据中心、边缘设备和传感器的所面临的各种计算挑战。关于辉羲智能辉羲智能致力于成为全球领先的具身智能AI计算平台供应商以卓越算力促进人工智能发展。成立三年公司已实现大算力端侧旗舰芯片R1的成功流片与量产交付率先在具身智能领域走通“芯片-平台-产品”的全栈自主国产化路径。