武林至尊,宝刀屠龙,号令天下,莫敢不从。江湖上的人往往都知道屠龙刀锋利无比,但却鲜有人知道里面暗藏的武林秘籍和兵法绝学,才是真正让人可以依仗的宝物。
ChatGPT成为今年现象级的热门应用后,一个说法也在行业里悄然流传开——1万枚英伟达A100芯片,是做好大模型训练的入门级装备。一时之间“洛阳纸贵”,AI芯片成为了大家眼中的“屠龙宝刀”。我们看到,大量抓住机遇的人,不仅投身大模型产品,还有一部分负责给“掘金人”卖铲子。
那么问题来了:
支持大语言模型的AIoT系统,
设计难度在哪?
该怎么做设计验证?
藏在“屠龙刀”里面的秘籍究竟是什么?
过去的AIoT,通常指的都是带低算力的端侧小芯片,但是随着类似ChatGPT的大语言模型全面得到应用,在端侧AIoT芯片上部署需要几十到几百TOPS算力的LLM大模型也成为新的需求。但是新一代AIoT芯片要提高十倍到百倍算力,这不仅仅是堆砌算力那么简单,需要从性能、互连、带宽、接口进行全面的系统级规划和设计。
新一代的AIoT芯片已经不是一个独立的芯片个体,目前市场上的AIoT芯片几乎都结合了CPU、GPU、FPGA和DSP等核心零部件。这就必然需要支持系统级芯片开发的EDA流程。
实际上,芯片设计厂商也意识到了这个问题。当制程工艺逼近极限,但人们对电子产品性能的追求还在不断攀升时,压力很快就传导到了上游的芯片厂商。借助面向系统级的创新,提升芯片的终极性能表现,也成为大家的共识。
所以没有任何分歧,无论从哪个维度看,大规模的系统级芯片设计由于场景丰富、系统规模不断扩张,这一需求正在快速形成市场主流的大浪,涌向EDA工具并推动其不断革新。
如何做好大系统芯片设计?
2023年7月13日至14日,备受期待的第三届中国集成电路设计创新大会(ICDIA 2023)在无锡召开。作为国内领先的系统级验证EDA解决方案提供商,芯华章受邀参加此次盛会,在“AIoT与ChatGPT”分论坛上针对大系统芯片设计挑战,分享了自己的解决方案。
大系统芯片设计,首先要理解什么叫“系统”?对高性能AIoT、自动驾驶、高性能CPU和GPU等等复杂应用来说,系统意味着多节点互联,每个节点都有自己的控制单元(如CPU)和计算单元(如AI、NPU),每个节点都有自己的操作系统和应用软件。毫无疑问,大系统是一个软硬件一体化、多节点一体化的复杂平台,但也只有把这整个平台都在芯片流片前验证通过,才能真正保证高性能复杂芯片设计的正确性。
因此,大系统芯片验证,最直接的挑战来自于规模庞大的系统级仿真。但困难远不止于此,由“大”带来的结构性挑战,涵盖了从验证到调试的方方面面。而更大的设计本身往往意味着更长的时间、更高昂的成本、更慢的仿真性能,本质上也就意味着更困难的验证。
在当下的技术和市场环境下,大系统芯片设计的验证面临三大共性难题,这些难题正是传统的EDA工具所难以解决的痛点:
设计大,很大,大到放不下
从多核、Chiplet封装、多节点到完整系统,复杂的验证规模可以轻易达到百亿甚至千亿门,对验证工具的容量提出了更高的要求,试想如果验证平台根本无法仿真完整的应用系统,又怎么能证明设计是完整正确的?但供数十亿至数百亿规模容量的验证平台,其性能、规模、可调试性又往往成为难以平衡的选择。
验证慢,很慢,难以收敛的慢
系统级规模不断增大,系统级仿真在整个验证的仿真流程中比例不断增大,导致验证团队特别依赖性能和数量有限的硬件仿真系统,导致验证慢的不仅仅是仿真速度,更是整个验证工作的收敛速度和效率。
Debug难,很难,越往后越难
在如此复杂和大规模的系统级仿真上,调试就变成一个更加困难的问题。仿真平台上观察到的问题,到底来自软件、芯片逻辑设计还是多节点互连?问题能否稳定复现?如何在多种仿真平台的数据之间进行综合分析?不解决这些问题,大系统的调试就会越往后期越难,最终影响整个项目周期。
我们似乎开始找到“屠龙刀里秘籍”的线索。作为最上游的辅助设计工具,EDA创新确实是提升系统级设计效率,降低创新成本的关键“钥匙”。
芯华章资深产品与业务规划总监杨晔表示,“单个IP的验证需求在降低,SoC或单个chiplet级的验证需求在不断上升,因为这部分是客户系统级创新的核心。然而在新场景的应用中,传统的EDA工具在应对大容量、深度调试、多种验证场景混合使用的时候,遇到各种效率挑战。芯华章致力提供从软件、硬件到调试的整体解决方案,特别是在大规模设计的系统级验证、硬件验证、架构验证等方面,将为用户提供全流程大系统芯片验证解决方案。”
芯华章大系统芯片设计验证解决方案的核心,是基于敏捷验证理念,建立统一的EDA数据库,打造从IP到子系统再到系统级的统一测试场景,提早开始系统级验证,实现验证与测试目标的高速收敛,进行高效率、高效益的快速迭代,从而助力芯片及系统公司提高验证效率,降低研发成本。
芯华章针对大规模系统级芯片“量身打造”的敏捷验证方案,已经在多个领域获得具体项目部署。
针对自动驾驶应用芯片,芯华章高性能硬件仿真系统HuaEmu E1不仅有高性能仿真和深度调试,还提供了LPDDR5模型用于客户内存仿真,提供CSI和DSI模型用于仿真自动驾驶系统的输入和输出,这些都超出了单颗芯片的范畴,是针对软硬件一体化的系统方案进行仿真验证。
为了解决原型系统和硬件仿真之间切换版本成本高,延长验证周期的问题,芯华章发布的双模硬件验证系统HuaPro P2E则基于统一的软件平台和硬件平台,可以在综合、编译、验证方案构建、用户脚本、调试等阶段,能最大程度的复用技术模块和中间结果,并使用统一用户界面,从而实现原型验证和硬件仿真丝滑的无缝集成,在节约用户成本的同时,还能大大提高验证效率。
传统的软件仿真工具以调试功能强大著名,但却受限于仿真速度,不擅长处理系统级的大规模仿真验证。基于芯华章自主研发的逻辑仿真器GalaxSim,芯华章GalalxSim Turbo实现多核、多服务器并行运算,可以实现1K-10KHz的复杂系统软件仿真,从而可以在RTL阶段提前进行系统级仿真。
拿到屠龙刀并不一定能号令天下,只有学会了刀里面的绝学才能真正成为“武林至尊”。
当“大模型”的路上人越来越多时,产业同样也需要向上游追溯,进一步提升创新效率,在激烈的竞争中快人一步。作为芯片产品定义和创新的核心环节,随着以系统级场景为代表的产业数字化需求迸发,EDA正从方法学、从底层架构开始这场自我革新。
来源:芯华章科技