超异构xhiplet:双剑合璧,实现算力指数级提升gpuchiplet

编者按Chiplet标准UCIe已经得到很多主流大厂的认可,席卷之势愈发明显。但就Chiplet的价值挖掘,目前可见的,都还停留在如何降成本和简单地扩大设计规模方面。我们觉得,Chiplet的价值还没有得到充分挖掘。Chiplet带来的价值,不应该是线性增长,而应该是指数增长:

一方面,量变会引起质变,Chiplet的流行,快速增加的单芯片设计规模,会给系统架构创新提供更大的发挥空间,使得计算的架构,从异构走向超异构。

另一方面,超异构带来的算力指数级提升,使得Chiplet的价值得到更加充分的发挥,反过来会促进Chiplet的大范围流行。

1 背景知识

1.1 单DIE性能和成本

单DIE的性能和成本,是正相关的关系。通常的芯片DIE设计,一定是在保证系统所需性能的条件下,选择最合适的工艺,达到最合适的面积(成本),达到在性能约束条件下的性能成本比最优。或者说:

在系统性能成本最优的状态下,受边际效应影响,想再想增加单DIE性能,所需要付出的成本代价非常高,会显著影响性价比。

在系统性能成本最优的状态下,想要再优化单DIE成本,可能会引起性能的大比例下降,反而不是性价比最优。

1.2 Chiplet协议UCIe

UCIe白皮书中给出的Chiplets封装集成的价值:

首先是面积的影响。为了满足不断增长的性能需求,芯片面积增加,有些设计甚至会超出掩模版面积的限制。即使不超过面积限制,改用多个小芯片也更有利于提升良率。另外,多个相同Die的集成封装能够适用于更大规模的场景。

另一个价值体现在降低成本。例如,处理器核心可以采用先进的工艺,用更高的成本换取极致的性能,而内存和I/O控制器则可以复用非先进工艺。随着工艺节点的进步,成本增长非常迅速。若采用多Die集成模式,有些Die的功能不变,我们不必对其采用先进工艺,可在节省成本的同时快速抢占市场。Chiplet封装集成模式还可以使用户能够自主选择Die的数量和类型。例如,用户可以根据需求挑选任意数量的计算、内存和I/O Die,并无需进行Die的定制设计,可降低产品的SKU成本。

允许厂商能够以快速且经济的方式提供定制解决方案。如图1所示,不同的应用场景可能需要不同的计算加速能力,但可以使用同一种核心、内存和I/O。Chiplet方式允许厂商根据功能需求对不同的功能单元应用不同的工艺节点,并实现共同封装。相比板级互连,封装级互连具有线长更短、布线更紧密的优点。

1.3 超异构计算

系统变得越来越庞大,系统可以分解成很多个子系统,子系统的规模已经达到传统单系统的规模。因此,都升级一下:系统变成了宏系统,子系统变成了系统。系统足够庞大,场景综合,单类型架构无法包打天下:

CPU灵活性最好,但性能较差;

DSA性能很好,但灵活性差;

GPU介于两者之间,可以说能较好的平衡性能和灵活性,也可以说,性能和灵活性都不够极致。

规模庞大的复杂系统存在很多硬件加速的空间:

复杂系统最核心的一个特征是二八定律。用户只关心自己的应用,而应用通常只占系统的20%,另外80%用户不关心的也相对确定的部分,一般称为基础设施,这些是可以通过硬件加速来优化性能的。

系统是逐步发展和沉淀的。很多原本属于应用层的工作任务,随着时间推移,越来越成熟,逐渐地沉淀成了基础设施。这些沉淀的工作任务可以通过硬件加速来优化性能。最典型的场景是AI推理,现在已经成为了基础的服务,供不同的应用调用。

在云计算、边缘计算等形式的综合计算模式下,单个用户应用的规模可能不大,但因为云计算的超大规模和多租户,很多相似的用户应用其总和规模足够庞大,因此,也可以通过GPU、FPGA或专用芯片的方式进行加速优化。

那么,要做的就是扬长避短,把不同类型的处理引擎协作起来,把各种引擎的优势充分利用起来,形成超异构计算架构:

DSA负责相对确定的大计算量的工作;

GPU负责应用层有一些性能敏感的并且有一定弹性的工作;

CPU啥都能干,负责兜底。

于是整个系统架构就变成了超异构架构。

总结一下计算架构发展的四个阶段:

第一阶段,单CPU串行计算;

第二极端,多核CPU的并行计算;

第三阶段,CPU+xPU的异构计算;

第四阶段,CPU+GPU+DSA+etc.的超异构计算。

2 Chiplet技术方案

2.1 方案1:设计规模不变,优化单DIE面积和良率等

一般情况下,在同等工艺同等功耗技术下,我们可以简单地认为,面积和成本成正比的。Chiplet实现用面积更小的DIE,实现同等规模设计,其优势主要为:

单DIE面积变小,增加芯片良率。而通常,单DIE的面积是已经平衡好良率的情况下的,再减小面积优化良率,可能效果并不是很明显。并且,多DIE封装会带来额外的良率风险。这样,一里一外的问题,通过多DIE来优化良率的效果可能就不会很明显。

可以让一些DIE不采用先进工艺,通过较低一些的工艺降低成本。

在不改变性能的条件下,通过Chiplet封装可以降低成本;也可以反过来说,在同样成本条件下,通过Chiplet封装可以提升性能。

2.2 方案2:单DIE设计规模不变,多DIE集成

当我们确定好单个DIE的性能和面积(功耗)的时候,这个时候相当于是把工艺的价值挖掘到了最优。需要Chiplet的价值,也同样需要工艺的价值,都不能少。我们要做的是在工艺价值的基础上,再叠加Chiplet封装的价值。而不是如方案1一样,为了Chiplet而Chiplet,反而放弃工艺的价值。因此,我们可以在原有DIE的基础上,通过多DIE封装来立竿见影地提升性能。

2.3 方案3:多DIE集成设计规模倍增,并且重构系统

通常,CPU组成的芯片,性能不够;而GPU、DSA组成的芯片无法单独工作,需要外挂CPU,形成CPU+XPU的异构计算架构;而SOC本质上是CPU+xPU的多个异构系统的集成。异构计算和SOC,本质上都是以CPU为中心的系统,XPU是一个个孤岛,所有的事情都需要CPU的参与才能把这些处理引串起来。超异构完全打破不同处理引擎之间的界限,CPU和其他XPU同样的地位,XPU间可以非常充分的交互,达到系统充分的整合。超异构计算可以做到:

性能和灵活性兼顾。因为二八定律的缘故,绝大部分计算是在DSA级别的处理引擎中完成,所以性能效率很好。而用户关心的应用依然是在CPU级别的处理引擎完成,又兼顾了灵活可编程性。

因为超异构计算架构可以驾驭更大的系统,因此,可以做到,在性能效率和DSA同量级的情况下,性能相比DSA再数量级的提升。

2.4 方案性能提升对比

注意:本节内容是定性分析,还无法做到定量分析。方案1,可以实现性能的百分比增长。方案1的道理很好理解,本来的目标是优化成本,在同等性能情况下,能够百分比地优化成本。我们相应地折算一下,在同等成本下,方案1可以做到性能的百分比提升。方案2,可以实现性能的线性增长。方案2也很好理解,通过增加更多数量的DIE来提升并行度,以此来提升性能。集成多少个DIE,性能就增加到多少倍。方案3,可以实现性能的指数增长。方案3通过整个系统重构,挖掘系统的一些可加速的点,然后再实现整个系统的充分整合重构。以此来提升性能。可以达到数量级的性能增长。

3 总结

3.1 设计规模的量变,引起系统架构的质变

规模是一个很重要的因素。云计算百万台的超大规模,其软硬件架构和运营模式跟传统的数百台的私有机房是完全迥异的。深度神经网络,通过更大量数据、更深层次网络的量变,成就了AI的“智”变。芯片也是同样的道理,随着规模的增长,很多设计方案考虑的问题会跟以前完全不一样。在小规模的时候,我们强调定制,极度优化性能和功耗等;但等到超大规模IC设计,我们更多关注的是通用性、可编程性、易用性、生态等。Chiplet机制,提供了立竿见影让芯片设计规模数量级增加的能力。如果我们不在系统架构层次创新,充分利用芯片规模数量级增加的这个优势,只是简单的平行扩展,那真是暴殄天物,浪费Chiplet给系统架构师们的馈赠。换个角度,现有的异构计算也好,SOC也好,无法驾驭Chiplet提供的超大规模芯片系统。需要本质的、体系性的系统架构创新,来更好地驾驭Chiplet的价值。

3.2 超异构,让Chiplet价值得到更大的发挥

超异构集成更多的处理引擎,提供更高的并行性,实现更分布式的系统,可以更好地驾驭数量级增加的芯片设计规模。此外,Chiplet更好地容纳现有宏系统的承载,通过超异构,使得很多性能优化措施得到落实,从而使得性能指数级增长(而不是根据面积的增加,线性增长)。可以说,超异构,成就了Chiplet更大的价值,使得Chiplet方案得到更大范围的落地,促进Chiplet技术的成熟和市场繁荣。

3.3 Chiplet和超异构的关系:双剑合璧,相互成就

超异构计算和Chiplet技术是相互协同、相互成就的关系:

系统越大,设计规模越大,超异构的性能优势就越明显。

超异构计算,需要数量级提升的晶体管资源,而Chiplet可以在芯片层次提供如此规模的晶体管资源,实现超异构计算方案和价值落地。

超异构计算的价值得到充分体现,超异构不断落地,会带动Chiplet的价值发挥、更广泛的落地以及市场繁荣。

随着超异构的发展,对Chiplet的要求会不断提高,需要Chiplet技术向更高的能力迈进。

(正文完)

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

THE END
0.施工现场临时用电施工方案安装工程,包括给排水、电气安装工程、智能建筑及电梯安装工程。 二、施工现场负荷计算 2.1设备容量的换算方法 (1)对于长期工作的用电设备,其设备容量就等于设备上标称法人名牌容量。 (2)对于反复短时工作制用电设备,设备容量就是将设备在某一暂载率 下的名牌容量换算到一个标准暂载率下的功率。 jvzq<84yyy4489iqe0ipo8iqewsfp}4441694=42:1=:9@>746e22=:28:8547xjvor
1.手表智能计算器imAppStore最好的 Apple Watch 智能计算器!简单,易于使用,功能卓越和非常美丽! Neuheiten 25. Jan. 2024 Version 3.2 - Performance enhancement App-Datenschutz Der Entwickler,Sing Fu Chan, hat darauf hingewiesen, dass die Datenschutzrichtlinien der App den unten stehenden Umgang mit Daten einschließen könnjvzquC41kv{og|3crrrf0lto1et0cyu1tgiipnw/cwl.dntdcenugw4kf;>95:65;2Em?mj
2.台州智能计算事业群招聘网猎聘2025年台州智能计算事业群招聘信息,海量高薪猎头职位等你来选,了解台州智能计算事业群岗位要求、薪资待遇等真实招聘信息,找高薪职位,上猎聘!jvzquC41yy}/nrjrkp4dqv4ekv.vjn|jq{0|ypluyzsƒ=u;1
3.首届“计算智能与智能控制”国际学术研讨会顺利召开2020年12月19日,首届“计算智能与智能控制”国际学术研讨会(International Symposium on Computational Intelligence and Cybernetics)顺利召开,来自国内外各高校、科研院所等的一百余名师生参加了此次线上研讨会。本届研讨会由华中科技大学人工智能与自动化学院、图像信息处理与智能控制教育部重点实验室、IEEE计算智能学会武jvzq<84ckc4iw|y0gf{/ew4kphu03:<;15;247mvo
4.《人工智能、云计算、大数据》考试复习参考题库(浓缩500题).pdf《人工智能、云计算、大数据》考试复习参考题库(浓缩500题).pdf,根据您提供的文档,我生成了一个简单的摘要,如下所示摘要《人工智能云计算大数据》考试复习参考题库浓缩500题,是一套涵盖了多项人工智能云计算大数据知识点的复习参考书其中包含了500道试题,涵盖了多个知jvzquC41oc~/dxtm33>/exr1jvsm1;54616:4=4925818=5672673>90ujzn
5.周艳敏主要研究方向为视触融合感知、人机交互安全、智能机器人等。主持国家自然科学基金委面上/青年、国家重点研发课题/子课题、上海市自然科学基金面上/探索等项目10余项,在T-MM、IEEE/ASME T-MECH、T-IE、T-ASE、RAL等发表期刊论文50余篇,在ICML、IJCAI、ICRA等领域顶会发表论文10余篇,授权中国/美国发明专利50余件jvzquC41tqhpv7yqpipj0niw0et0kwkq13868872:74ivv
6.神经网络在智能信息处理中的应用智能信息处理 神经网络 神经网络的 处理信息 .. 中的应用 在信息处理中的应用 中的神经网络 里面的 智能应用 蚂蚁文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。 关于本文 本文标题:神经网络在智能信息处理中的应用 链接地址:https://www.mayiwenku.com/p-4498802.html当前jvzquC41yy}/oj~kygtlw7hqo1v.6=>::28/j}rn
7.硕士点介绍建有交通安全应急信息技术国家工程实验室温州分实验室、浙江省高校高水平创新团队、温州市数字经济研究院、温州市视觉大数据智能计算与应用重点实验室、温州市协同创新中心、科技创新团队等科研平台和科研团队、以及浙江省“十三五”省级重点建设实验教学示范中心、网络工程国家级虚拟仿真实验教学中心等实验教学平台。 jvzquC41ck4x|~3gfw4dp8nphq524@=163970qyo
8.AI计算机app下载,AI计算机app软件v3.1.8AI计算机app是一款集计算、娱乐、办公于一体的移动应用软件,它使用了AI技术,提供了智能计算、智能聊天、智能娱乐等多种功能,同时还可以提升用户的手机使用体验。这款软件拥有强大的AI算法算力,可以完成复杂的计算和解答问题,提供高效的智能计算服务。 软件特色: 1、集成了众多的算法和公式,可以像人类一般进行算术、几jvzquC41okv/nrzncpwj0wjv1uugv88626=70qyon
9.LightningCSS处理CSSGrid:模板优化与浏览器兼容性{ "browserslist": ["last 2 versions", "ie >= 11"] } json 2. 智能前缀处理 在src/prefixes.rs中,Lightning CSS定义了各CSS特性需要添加前缀的浏览器版本范围。对于Grid布局,当需要支持旧版浏览器(如IE 11)时,会自动添加-ms-前缀: /* 输入 */ jvzquC41dnuh0lxfp0tfv8lkvdrpih52:3?0c{ykenk0fnyckny03>9687?37
10.圆满落幕第三届AI定义汽车论坛汽车频道在AI计算平台方面,科技企业纷纷布局,从加速计算到异构计算,再到整车智能计算平台,为汽车行业提供了高效、可靠的算力解决方案。数据处理与云端算力的紧密结合,为汽车的个性化应用与智能化服务奠定了坚实的基础。 此外,智能座舱、AI底盘及AI飞行汽车等前沿话题也将成为本次论坛的亮点。智能座舱通过AI技术实现了更加人性化的jvzq<84pgyy/u}temuzbt7hqo1OH49772581295526;40|mvon
11.互联网技术管理(精选5篇)但是互联网具有对信息进行“海量检索、目标处理、精准推送”的特点,使化工企业消防安全信息集中智能计算成为可能。比如目前,很多地方都要求化工企业定期上传相关信息,联动消防部门信息系统,即一种借助互联网技术的智慧消防系统,能够实现对化工企业消防安全隐患的自动判定,并自动生成消防监督检查的提示。jvzquC41yy}/3vnujw4dqv4jcq}fp86874750qyon
12.上海大学2023年博士研究生招生简章:计算机科学与技术考博本学科也建设具备多个高水平学科基地与平台,包括上海智能计算系统工程技术研究中心、教育部海洋智能无人系统装备工程研究中心、工业控制安全国家地方联合实验室上海分中心等基地,以及类脑计算、大数据可视化分析、机器学习等高水平一流实验平台。 本学科实力雄厚,科研环境优良,欢迎有志于科研深造的博士研究生报考。本学科博士jvzquC41mcucq7pqqnkbtw3eqo532;7344<0:=:7354ivvq
13.triedge智能计算边缘计算英特尔Developer Cloud for the Edge|2023-06-01 研华许杰弘:双向奔赴,Edge AI正在与产业深度融合 智能计算研华Edge AI|2022-12-13 宜鼎靠三技术 冲刺Edge AI 智能计算宜鼎Edge AI|2022-05-23 IE浏览器6月16日正式退役被送上热搜 Edge官博郁闷喊话 智能计算Edge微软IE jvzquC41yy}/gnuy0eun0ls1vgii1}4m1vxj/niig
14.江苏大学研究生招生信息网江苏大学考研信息网1.多媒体与智能计算 詹永照 yzzhan@ujs.edu.cn 毛启容 mao_qr@ujs.edu.cn 2.系统安全与信息安全 王良民 wanglm@ujs.edu.cn 陈锦富 jinfuchen@ujs.edu.cn 孙宏祥 jsdxshx@ujs.edu.cn 3.物联网设备与系统(农业物联网) 刘路 chinaliulu@hotmail.com 鲍煦 xbao@ujs.edu.cn 4.数据处理与数据工程 刘哲 jvzquC41yy}/|qnlkcu/ew4mcqbp8sgyu5bnuutq18888622;?:0qyon
15.从周到天:华大九天ALPSCS通过数模域同步协同和并行计算技术突破智能接口元件(IE):具备内置自动化的数模/模数信号转换功能,依据配置精确模拟信号的上升/下降时间以及电压阈值,简化跨域验证设置流程,有效提升验证效率。 核心技术二:基于智能矩阵求解与并行计算的高速仿真引擎 仿真速度是决定验证效率的关键因素。ALPS CS传承了ALPS仿真器家族在性能方面的技术积累,并将其充分运用到数模混合jvzq<84pgyy/39osmc4dqv3ep1814>62355d8@68;9?287xjvor
16.智能信息处理与优化计算学术团队智能信息处理与优化计算学术团队是江西理工大学信息工程学院“计算机科学与技术”一级学科下具有交叉学科特点的科研团队,本团队一直跟踪智能仿真优化与调度、进化计算和智能优化算法的国内外研究前沿,长期开展智能计算、进化算法、优化调度等智能优化理论及其在冶金、采矿、稀土、应急管理、家具作业车间等区域特色方面的应用创新jvzquC41kg4kz~xv0gjv0ls1kplp1:5:81735;;0jvs