对话微纳核芯:独创三维存算一体3D-CIM™芯片,引领千亿级产业落地
微纳核芯是全球技术领先的存算一体AI芯片公司,通过三维存算一体3D-CIM™核心技术,旨在突破传统算力芯片架构在性能、功耗和成本上的“不可能三角” 。 我们与微纳核芯首席科学家进行深度对话,围绕端侧AI趋势的判断、技术路线的选择、到联合产业链上下游企业构建生态体系的长期战略,全面解析其用三维存算一体3D-CIM™技术实现“AI普惠”的底层逻辑。 【核心观点】 1.市场定位与战略选择:洞察到AI从云端走向端云协同的必然趋势 a) 大模型问世后,我们看到了AI在云端展现出的惊人力量,但真正的AI革命,必须像移动支付普及一样,将AI技术带到每一个用户身边。将大模型部署到手机和PC等终端设备,是实现这一愿景的必经之路。 b) 大模型需要处理大量敏感的个人数据,且端侧处理能够提供即时响应,解决云端传输和计算带来的延迟问题。AI的未来,不仅在云端,更在每一个人的设备里。 2.核心技术壁垒:突破“不可能三角”,寻找AI芯片的最优解 a) 大模型推理芯片面临着一个“不可能三角”困境,即高性能、低功耗、低成本三者难以兼得。传统算力芯片架构在不同应用场景下只能做出取舍,但在手机侧,这三点必须同时满足。 b) 如何破解这一难题?微纳核芯走出了一条全新的技术路线——三维存算一体3D-CIM™,将存内计算技术与3D近存计算技术结合:3D近存计算技术将存储芯片与计算芯片进行三维集成,能够显著提升带宽;存内计算技术将计算单元融合到存储器内部,实现了能效数量级的飞跃与算力密度数倍提升,使得我们可以采用更成熟的CMOS工艺,从而大幅降低成本,为AI芯片的大规模普及提供了充分条件。 c) 小结:微纳核芯独创的3D-CIM™技术解决了“芯片是否有PPA(性能、功耗、成本)优势”的问题。 3.产业化与增长策略:构建开放生态,实现规模化落地 a) 依托开放的RISC-V生态:微纳核芯自主研发了RV-CIM™全栈技术链,通过将RISC-V CPU和存算一体的异构架构,自主开发了基于RISC-V扩展的存算一体指令集、算子库和编译器,避免了私有生态带来的推广障碍。 b) 清晰的产业化路径与市场布局:微纳核芯从底层的IP流片验证,到中层的3D堆叠技术攻克,再到上层的软件生态构建,每一个环节都紧密相扣,共同指向一个明确的终点——实现AI芯片在手机和PC市场的规模化应用,并最终拓展到边侧和云端市场。 c) 小结:RV-CIM™技术解决了“芯片是否好用”的问题。 【对话内容】 久谦:您是如何捕捉到端侧手机和PC的机会? 微纳核芯首席科学家:一个伟大且具备颠覆性的技术需要跟每一个C端产生连接:在23年年底大模型出现后,AI更多在云端展现实力,24年年初我们在跟手机厂商探讨合作时,深刻感知到端侧大模型的必要性,如果大模型都在云端完成计算,其实并没有实现“AI普惠”,而AI需要跟每个人的生活产生连接,可以参考手机支付,才能实现真正跨时代的应用,因此AI上手机则是必然将会发生的。 手机/PC等搭载端侧AI的必要性:1)用户隐私:大模型和互联网时代不同,端侧大模型需要用户非常敏感的数据e.g. 手机页面虚拟操作/ 通讯录信息/ 银行卡信息,因此放在端侧是极其必要的;2)快速响应能力:当用户有频繁大模型请求可以在端侧直接处理,如果有复杂需求再用云端模型完成,实现端云协同。PC和未来机器人爆发后也是同样的道理。 大模型推理的“不可能三角”:1)高性能:早期AI关注有多少T(Tops)的算力,而对于大模型推理更关注TPS(tokens per second);2)低功耗:在端侧低功耗和散热以及续航紧密挂钩,而云侧功耗和TCO成本挂钩;3)低成本:云侧和端侧都追求低成本。因此我们追求的是“高性能+低功耗+低成本”的解决方案,但是现有的产品,无论在手机/ PC/ 云,都无法同时满足上述三个条件。而我们团队从18年开始深入存算一体的技术,已经演进到3D-CIM™和RV-CIM™这两个独创的技术,这两个技术在满足上述三个条件时具备显著优势。 久谦:“不可能三角”具体到产品定义上如何去做取舍? 微纳核芯首席科学家:采用传统技术路线往往是针对不同的应用场景做折中,但是对于手机侧“不可能三角”必须变成可能,不然AI手机爆发还是存在阻碍。如何突破“不可能三角”则要求走一条新的技术路线,因此我们独创了3D-CIM™技术: 1)高TPS如何突破?卷积神经网络时代权重往往会复用100次以上,更强调算力大小;transformer出现后,decoding阶段权重复用率为1,核心瓶颈变成带宽。传统计算芯片和存储芯片是分离的,通过片外数据通路进行传输,带宽提升难度很大且需要付出高功耗的代价。为了解决带宽瓶颈问题,将大容量存储器和计算芯片三维堆叠的“3D近存计算”技术路线,已成为国际头部产业界和学术界的共识。 2)仅“3D近存计算”没有办法解决功耗和成本问题:存储器容量/ 带宽/ 算力三者需要相互匹配,DRAM芯片面积和计算芯片面积要保持一致,因此传统AI计算芯片架构要在有限面积下满足端侧推理算力要求往往需要依赖7nm或更先进工艺,先进制程的获取目前还是敏感的问题。同时,如果想要每一个消费者享受到“AI普惠”,需要高端机/ 中端机/ 低端机都可以搭载端侧模型,也对芯片成本提出要求。 3)为什么三维存算一体3D-CIM™技术可以满足“不可能三角”:我们方案的算力密度和传统架构相比有数倍的优势,能效有数量级优势,可以用更成熟的工艺达到同样的算力,同时满足了高性能、低功耗、低成本的要求。2023年底我们形成了3D-CIM™技术原型的创新,通过和上游DRAM龙头供应商和下游手机和PC等客户的合作,我们也在不断完善产品定义。 4)计算完备性和生态如何解决?芯片除了需要有PPA(performance,power,area)优势,还需要保证软件的适配性,我们创新采用了基于RISC-V和存算一体的异构架构,也就是RV-CIM™架构,解决计算完备性和软件生态的问题。 久谦:如何确定目前产品TPS的大小是否足够?未来是否有更高的TPS需求? 微纳核芯首席科学家:从长远角度来看越高越好。如果现在采用手机SOC主芯片跑端侧大模型只能做到20+tokens/s,而从客户角度出发至少需要100tokens/s以上的TPS,TPS提升主要是通过提高带宽,提高带宽主要是通过DRAM和计算芯片3D堆叠完成。同时,功耗不能太高,要保证在端侧的热预算内,不然会影响芯片的可靠性和用户的使用体验。存算一体架构及3D堆叠,即3D-CIM™方案解决了“不可能三角”,确保了在手机端苛刻的功耗限制下,轻松达到客户需要的100tokens/s以上的性能要求。 久谦:3D存算一体和3D近存计算在TPS上是否有差距? 微纳核芯首席科学家:TPS主要取决于DRAM和计算逻辑芯片的带宽,在decoding阶段生成token的速率更多是对DRAM的带宽有要求,其实是比较DRAM谁更强,是否跟业界最头部的3D DRAM厂商合作。当解决了带宽问题后,算力也需要同步提升。端侧TPS同时受带宽和功耗限制,存算一体方案能够进一步降低功耗,对于功耗限制场景下的应用表现比3D近存更好。 Transformer和存算一体高度匹配:从计算的本质来说分为三类:标量计算/ 矢量计算/ 张量计算(包括二维矩阵以及更高维度的矩阵)。AI 计算的主要类型就是矩阵计算和张量计算,存算一体可以在底层的加速部件做矩阵加速和张量运算。同时在SRAM存储器内部把计算单元和存储单元融合在一起,既是存储权重的存储器,也是高效矩阵运算单元,单位面积的算力密度得到显著提升,计算能效也获得了数量级的提升。 久谦:SRAM/ DRAM/ RRAM是否都可以用来做存算一体? 微纳核芯首席科学家:存储器可以看作是二维阵列,以最典型的矩阵运算乘法(一维矢量和二维矩阵的乘法)举例,二维矩阵直接存储在二维存储器阵列中,只需要一维矢量输入后直接在存储器内部并行做矩阵加速计算。类似于士兵方阵,之前每一个士兵只需要记一个数(代表存储一个权重),现在赋予士兵每人一个武器(既做存储也做计算)。 长远角度来看我们希望士兵方阵规模越大越好(存储容量大),士兵身体结实(做多次计算不会损坏),每一个士兵所占的空间小(存储空间密度高),但是目前来看不存在这样一个满足所有要求的存储介质,从成熟度来说SRAM存算一体是当前最好的:可以基于标准工艺;计算速度足够快;SRAM可靠性高接近无限耐久性,唯一的缺点是容量无法支持GB级模型存储。因此我们选择把SRAM存内计算技术和DRAM 3D近存技术结合,DRAM容量足够大能够一次性存储大模型权重。 目前还没有充足实验证据表明其他新型存储器能够做到GB级的容量,且同时能够具备类似于SRAM/DRAM的高耐久性和高可靠性,更多还是集中在MB级,容量还差2-3个数量级,而我们现在做的存算一体方案已经经过多次流片实证验证过。同时,我们非常期待新型存储器领域能够在工艺方面继续努力以突破耐久性、可靠性、稳定性、一致性等关键点,从而我们的3D-CIM™架构也可以早日用上新型存储器来进一步提升性能。 久谦:您是怎么一步步产业化存算一体技术? 微纳核芯首席科学家:团队有很强的模拟芯片基础,存算一体的底层是全定制设计,需要模拟流程和数字流程相结合,在2018年我们已经意识到AI时代对于矩阵运算的要求非常高,也意识到冯诺伊曼存算分离的架构会带来很多问题,当时便进入到存算一体领域的研究。我们拥有大量模拟域存算一体、数字域存算一体的设计经验,解决了高低温影响/ 电源扰动/ 行与行/列与列之间的串扰等问题。通过多次流片的实测结果,在23年我们已经验证了数字域存算一体IP的PPA优势和可量产性。 如何解决带宽问题?24年我们和头部存储器厂商进行协同研发,把3D DRAM技术和存算一体技术进行结合,同时解决带宽问题和存储容量问题,构建了完备的3D-CIM™体系。 如何提升用户使用感?如果采用私有定制的软件工具链,在大规模商用时面临很大障碍:客户的算法很难给芯片厂商开放,需要通用的编译器和工具链;客户的应用场景很多,私有生态很难推广。我们意识到需要一个非常开放的软硬件生态,因此选择跟RISC-V进行异构,从而开创了RV-CIM™架构,开发了基于RISC-V拓展的存算一体指令集/ 硬件算子库/ 编译器,借用全世界开放的RISC-V生态推进3D-CIM™的应用场景。 久谦:公司存算一体方案中是用的RISC-V指令集? 微纳核芯首席科学家:CPU主要做标量计算,RISC-V CPU拓展了矢量计算的功能,基于具备标量计算和矢量计算的RISC-V指令集,我们拓展出存算一体的指令集,主要针对存算一体硬件的特性进行张量和矩阵计算。 指令集和NPU的架构是对应的,且还需要匹配算子库。算子库相当于指令序列,算子库上面是编译器,编译器连接到AI算法,这一整套都需要同步开发。一些芯片公司外采NPU和ARM CPU,不需要做编译器的开发,难度变小但是很难做出差异化,也无法获得PPA竞争优势。我们早期花了很多精力去开发了自己的指令集/ 算子库/ 编译器,并且和客户做了适配,可以直接在我们的验证平台做评估。 传统架构是平面结构,变成3D后计算架构发生了重大变化,算子库和编译器都需要改变,不然使用效率会很低。 我们也是受工信部和中国RISC-V工委会委托,微纳核芯作为RISC-V存算一体标准工作组组长单位来牵头做这个工作。我们会完成工信部和RISC-V工委会对我们的战略任务要求,他们给我们的任务是做成全球首个RISC-V存算一体标准。 久谦:公司存算一体芯片产业化的进程? 微纳核芯首席科学家:存算一体NPU和RV-CIM™芯片已通过多次流片验证,性能指标国际领先,公司正全力推进首颗3D-CIM™芯片的流片工作,标志着技术正式步入产品化阶段。 久谦:公司如何和上下游产业的伙伴如何合作以及定义产品的? 微纳核芯首席科学家:手机产业对于端侧AI趋势一致的认可,对3D堆叠、3D-CIM™提高TPS的显著收益的认可,目前我们已经和上下游达成共识。 客户对于端侧芯片产品的考量首先是TPS能否达标,第二是功耗是否足够低,而客户是否选择使用这款产品还需要考虑这块额外的成本能否在客户端回收和盈利,因此提供的方案成本越低,客户越容易做决策,而在同等TPS下我们有显著的成本优势,这使得我们的方案不仅能定义旗舰机型,更能赋能中端乃至入门级设备,真正实现AI普惠的愿景。 久谦:公司未来技术方案的迭代方向?哪些技术方案可能存在挑战? 微纳核芯首席科学家:1)市场的演变:3D-CIM™在服务器领域也有很强的需求,我们正在与多家国产的GPU和X86/ RISC-V CPU主芯片企业合作,未来将他们的主芯片跟我们的3D-CIM™协处理器进行协同,从而形成整体优势。 2)存算技术的提升:持续优化算力密度和计算能效,后续将采用更先进国产工艺来进一步提升PPA优势。 3)DRAM协作开发:我们和DRAM厂商已经建立了协作开发的关系,现在的3D DRAM还是基于传统DRAM产品进行设计;而针对3D堆叠,DRAM可以在设计层面进行很多优化设计,通过深度挖掘DRAM内部的定制化电路结构,从而进一步提升带宽+降低功耗水平。 久谦:公司产品的终局情况如何? 微纳核芯首席科学家:1)端侧:先切入手机和PC市场,通过PPA优势持续扩大我们在手机和PC的市场优势地位。 2)边侧:会兼顾智能硬件和机器人领域,目前这个下游市场还不够大,我们选择和第三方合作的机会先做产品储备,等待商业机会。 3)云侧:服务器侧也是一个重要的增长市场,我们不会去挑战现有产业链形态(编者注:例如GPGPU),而是将我们的3D-CIM™芯片与现有服务器主芯片厂家进行协同,主芯片主要是解决云端的通用性,而大模型推理的PPA优势可以通过我们的3D-CIM™芯片来获得,我们的产品可以作为GPU的协处理器,共同提升整个算力集群的TCO。 我们的目标不是成为一个简单的芯片供应商,而是成为未来AI计算架构的创新引领者之一。