专访后摩智能创始人:依靠存算一体,芯片翻越“两面墙”科学湃澎湃新闻

上世纪四十年代,冯·诺伊曼架构开启了计算机系统结构发展的先河。

在传统冯·诺伊曼架构下,计算和存储分离。不管处理器运行多快、性能多好,每次执行运算时都需要把数据从存储器搬到处理器中,数据处理完再搬回到存储器。

以数据为主的AI计算之下,冯·诺伊曼架构的“存储墙”和“功耗墙”挑战凸显。半个多世纪后的今天,有没有一种方式可以翻越“两面墙”?

吴强

“相对于计算芯片尤其是CPU领域,AI芯片可能是中国率先弯道超车的领域。”而国内外在存算一体方面都还处于起步阶段,这种架构也处于学术界向工业界迁移的关键时期。存算一体做得好的在学术界,AI计算强的又是工业界,“真正想做出大芯片,需要两波人在一起融合。”

一种新兴技术想要得到大规模普及,离不开产业生态的建设。尤其在传统芯片已经占据目前大部分已有应用场景的前提下,如何突破新市场,实现产业化落地,这是所有新兴AI芯片公司都要面临的问题。

吴强说,相比海外垄断巨头,作为新玩家,一定要在局部有明显优势,解决痛点,客户才有动力尝试新产品。而建立软件生态是必须要走的路,唯有如此才有可能真正打破巨头的壁垒。

翻越芯片“两面墙”

AI芯片是专门用于处理人工智能应用中大量计算任务的模块,主要分为GPU、FPGA、ASIC。

后摩智能创始人兼CEO吴强表示,这些芯片在底层设计理念上类似,不同之处是对效率和通用性的取舍。而存算一体利用新的设计理念,基于存算一体的大算力计算芯片对先进制程的依赖也较弱。

在传统冯·诺伊曼架构下,计算和存储分离,计算单元从内存中读取数据,计算完成后存回内存。

但随着AI芯片的发展,这种架构带来的问题是,存储器的数据访问速度跟不上计算单元的数据处理速度,阻碍性能提升的“存储墙”问题严重,性能瓶颈凸显,算力提升有限。

特别是人工智能迅猛发展的当下,人工智能算法对逻辑单元与存储单元之间信息交互能力的需求相对于传统任务更严苛。AI计算以数据为主,大量数据搬运导致功耗居高不下,“功耗墙”挑战凸显。

到2025年,全球数据中心将使用全球20%的电量。再比如AlphaGo下棋打败人类,但人类只用了20瓦的大脑能耗,而AlphaGo是2万瓦。如果更多脑力劳动被机器取代,芯片散发的热量会让地球变得滚烫。

只有低功耗基础上的大算力才是可持续的。那么如何才能翻越“存储墙”和“功耗墙”?存算一体(compute-in-memory)也叫存内计算,是指直接在存储单元内部进行运算。它可以整合逻辑单元和存储单元,缓解数据搬运问题,从而降低能耗。这被认为是打破“冯·诺伊曼瓶颈”的有效方法。

后摩智能联合创始人、战略副总裁项之初介绍,由于在存储单元内完成运算,存算一体可以解决困扰业界许久的“存储墙”问题,减少数据搬运过程中高达90%的功耗消费,提升计算能效比。同时,这种架构也减少了等待数据读取时算力的浪费,实际性能更好。存算一体采用非冯·诺伊曼架构,提升算力只需要复制“存算一体单元”,工程上更简洁。

当然,存算一体并非万能,它只针对某一类计算特别是以数据为主的AI计算,并不适合CPU等以控制为主的计算。存算一体作为新的芯片方向,还面临电路设计、架构、软件等诸多层面的挑战。

存算一体正处于学术界向工业界迁移的关键时期。吴强表示,最本质的挑战和难点是,“需要对存算一体技术有很深的了解,同时又要对AI应用落地有了解,只有这两者融合在一起,才有可能产生裂变,做出局部有颠覆性的东西来。”

难就难在,这两者是两波人在做,存算一体做得好的在学术界,AI计算强的又是工业界。“真正想做出大芯片,需要两波人在一起融合。”吴强说。

寻找回国创业的机会

做过AI芯片,也研究过存算一体,吴强最终决定自己创业。

实际上,2018年后,芯片热潮起来了,对创业者来说,这是一个难得的历史机遇。投资人问过吴强为什么要做AI芯片?吴强说,AI芯片相比应用芯片更难做,但空间很大。芯片巨头英伟达市值突破5000亿美元,增长的大部分来自于AI芯片。

“人不喜欢做枯燥的事,所以一定会用AI辅助,变得更高效,我比较认可人类生活智能化是大趋势,如果AI是大趋势,AI计算就必须用算力支撑。”

以无人驾驶为例,L5级无人驾驶需要4000 TPOS算力才能支撑充分的智能化。边缘端和云端算力支撑着AI应用,支撑着人类社会不断走向智能化。“当然我们是用差异化技术做存算一体,有差异化的产品做出来才能弯道超车。”

2006年在普林斯顿大学获得计算机科学博士学位后,吴强曾先后在Intel、AMD、Facebook、地平线工作,是AMD的GPGPU/OpenCL创始团队核心成员,2009年-2017年任Facebook资深科学家,领导过绿色云计算项目,大幅优化和节约整体电耗。

那时候英特尔已经是大公司了,AMD也是大公司,距离创业都很远。第一次在硅谷接触到创业,是在Facebook时期。“当时Facebook也就小几百号工程师,还比较小,不是很有名。整个公司只有一层楼,每天都能看到扎克伯格。去了Facebook以后就看着它一路成长,成为国际巨头,拥有几万工程师。”

这是吴强第一次见识到创业公司是如何成长的,知道了创业究竟是怎么一回事,这对他触动很大。

2012年,Facebook上市,包括吴强在内的一批老员工都面临着未来要做什么的选择。“比如有人经济上比较自由以后就去做投资了,有人退休了,有人去创业了。我自己也在思考,我要做什么。”

吴强“想了一下”,还是想去创业。“我觉得我也很喜欢这个过程,把一个公司从0到1、从小做大的过程很美好。”

他开始寻找回国的机会。在美国待了将近20年,直接回国创业一步到位不现实,他决定先加入创业公司。“所以我当时看国内的机会只看创业公司,没有看过大公司。”

带着对创业的向往,2017年回国后,吴强加入地平线担任技术副总裁及工程院院长,后来又任地平线CTO,领导AI芯片软件方案及生态建设,以及边缘端应用解决方案商业化落地,帮助企业构建硅谷标准的国际化研发体系。

一直到2020年,吴强离开地平线,自主创业。在美国时,项之初和吴强都在波士顿生活过,也一起踢过球。“在美国其实很单纯,我都不知道他是什么专业的。我们只是踢球玩,在一起踢球过程中是有信任感的,能通过这些判断一个人是不是靠谱。”就这样,项之初也信了这个球友对创业的判断,两人一拍即合。

软件生态:鸡生蛋,蛋生鸡

“我们有大量AI算法、底层框架等相关人才,这些都间接推动了存算一体芯片发展。中国在这一领域的发展从技术路径和落地应用上来看非常多元化。我相信未来会有中国存算一体芯片企业成长为这个领域的世界级公司,而不仅仅是中国本土的领头企业。”周志峰表示。

2020年底吴强创立后摩智能,基于存算一体技术开发大算力智能计算芯片。今年3月,后摩智能宣布完成数千万美元天使轮融资,6个月内又宣布获得第二笔3亿元融资,目前已完成核心技术验证,8月中旬流片。

尽管存算一体被一些业内人士看好,但一种新兴技术想要得到大规模普及,离不开产业生态的建设,包括得到芯片厂商、软件工具厂商、应用集成厂商等的协同、研发、 推广与应用。

尤其在传统芯片已经占据目前大部分已有应用场景的前提下,如何突破新市场,实现产业化落地,这是所有新兴AI芯片公司都要面临的问题。

回看英伟达GPU的发展历程,它的成功给出了启示。1999年,英伟达推出标志性产品GeForce256,这是世界上第一款GPU。

“英伟达最初做GPU是用作图形处理的,后来突然发现GPU可以用作GPGPU(通用图形处理器),用来做科学计算。”吴强说,GPU的出现解决了一个痛点,没有国家实验室才买得起的服务器大集群,也可以拥有大算力。

“我们作为新玩家,一定要在局部有明显优势去解决别人的痛点,比如算力更大,功耗更低,能做到这一点,别人才有尝试你产品的动力。”

另一个不可忽视的点是英伟达以CUDA为核心的软件生态。吴强说,智能芯片的研发,难的是挑战软件生态。“英伟达的软件做得非常好用,符合人的思维逻辑或习惯,既然用习惯了就在上面建立更多工具和库,这就是所谓的生态。”

就像先有鸡还是先有蛋的问题,软件好用,用的人自然多,软件用得越多,功能就越强大。“我们也一定要走这一步,软件一定要好用,迁移成本要低,并且要让用了之后尝到甜头的人在上面建立他的工具,而且一定是开放的生态,这样一步步做起来,就变成了生态。”

吴强表示,对于所有新玩家而言,这是必须要走的路,也只有这样才有可能真正打破巨头的壁垒。而第一步就是要找一个“不太深的地方”攻入,相比AI训练,可以从不需要那么多算子的AI推理切入,逐渐在局部建立自己的生态,在小范围内形成闭环,破解鸡生蛋、蛋生鸡难题。

高端芯片设计人才差距缩小

二战后的上世纪五六十年代,美国科技爆炸性发展,芯片作为底层支柱进入各行各业,诞生了最早研发半导体芯片的硅谷。上世纪七八十年代,日本汽车、家电产业发展,芯片作为底层支柱也跟着发展。

今天的中国也一样, 科技开始全面赋能,人工智能、无人驾驶、机器人、5G、物联网等多种新型应用形成增量市场,这个增量市场也必须由位于技术栈底层的新一代芯片支持。中国芯片产业爆发得自然,“这个时机特别好,如果需求侧没有巨大增量,我们只是跟随欧美巨头已经有的芯片产品和市场,我觉得这个产业做不起来。”周志峰表示。

过去几年,国产芯片领域布局越来越多,行业正面信号的释放也是如此。政府、资本市场、科技大厂都在支持国产芯片发展。更重要的是,产业集群在中国,芯片公司能更了解用户需求,推动生产出更满足市场需求的差异化芯片。

而人才优势是推动产业向前发展的最重要一环。“我做CEO七八个月了,感受还是蛮深。”和以前做技术时不同,现在的吴强睁开眼睛就是五件事:人、钱、方向、客户、组织能力。

众多科技领域中,中国在芯片领域的人才优势相对明显。“全球范围内,相较于其他领域,华人力量在半导体行业的影响力是巨大的。在全球顶级芯片企业中,华人担任技术或商务高管的比例远高于其他领域。按营业收入全球前十名的芯片设计公司中有8家的CEO是华人。”周志峰说,如今,这些人才大量归国,加入创业公司或科技大厂,带动中国芯片行业的发展。

吴强同样认为,目前中国高端芯片在设计上和国外差距很小,能够满足这一轮芯片革命的发展。尽管眼下已经出现芯片行业过热现象,比如验证人才紧缺,价格甚至高于设计人才,创业企业互相挖人等,但他表示,这是暂时的,两年内会趋于理性。

“我们还是希望有一点匠心的人过来,真的认可我们,看中我们做的事情,看中这个团队,愿意跟我们一起,相信我们可以把事情做大,我们要去找这样的人。”

而芯片软件人才仍然偏弱,与硅谷差距较大,高端芯片设计的架构师等人才数量略有欠缺。“我们看了很多面向数据中心的处理器芯片公司,很多创业者都忽略了软件生态问题,只考虑怎样做出极致性能的硬件,但是如果没有可编程性高的配套软件生态,是没有办法真正进入终端市场的。软件生态是欧美芯片大厂真正的护城河。”周志峰建议,中国要在芯片软件生态人才上加强培养。

外企培养一批,海外归来一批,国内通过应用场景培养一批,人才固定,资金充足,“未来中国会成长出大芯片巨头来,是谁我不知道,但我相信一定会有。”吴强说。

THE END
0.生成式AI推动对计算资源的需求:AltmanSolon分析文章探讨了生成式AI如ChatGPT对计算、存储和网络基础设施的影响。企业级生成式AI工具的增长将导致计算资源和网络需求增加,特别是对数据中心和公共云服务。训练大型语言模型需要大量计算资源,而推理工作负载主要发生在推理阶段,可能引发对本地数据中心和网络容量的压力。随着生成式AI的普及,基础设施提供商需要规划足够的资源jvzquC41dnuh0lxfp0tfv8l|s2=358ftvkimg8igvcomu8653;8:2@8
1.AI计算平台依托对行业深度理解与实践沉淀,融聚智能物联网、大数据、 人工智能、知识计算,构建社会运行核心支撑的新计算模式, 打造全要素融合式产业数智化服务jvzquC41ck4dnrkg0et0cknnkv0mn~yqtj
2.阿里云高性能计算负责人何万青:阿里云大计算加速HPC与AI融合而新冠的爆发带来了一个重要契机,我们通过整合云上计算资源,第一时间帮到科研机构开展新冠研究,从而发现了云计算具备的独特优势。据报道,世界上前 20 大药厂 70% 的算力和研发都在往云上迁移。 在新冠疫情爆发初期,阿里云第一时间免费开放AI算力支持抗疫研发,支持科研人员围绕新冠病毒进行药物研究;其次,通过大数据进行jvzquC41fg|fnxugt0gmk‚zp0eun1jwvkerf1:5274;4
3.【分享NVIDIAGTC23大会干货】人工智能加速计算和科学计算的进展本文分享了NVIDIA在GTC大会上关于加速计算在AI和科学计算领域的进展,强调了数据中心的能源效率需求、新产品如HopperGPU和BlueField-3的数据中心解决方案。此外,还介绍了推理平台的强化,特别是对于生成式AI和视频内容处理的优化。NVIDIA还展示了在量子计算领域的创新,推出了Quantum平台,旨在支持量子算法开发和混合量子经典计算jvzquC41dnuh0lxfp0tfv8mwiaimqwj1ctzjeuj1fgzbkux134?86?;43
4.王坚院士:算力、云计算、AI,发展云计算需要“三位一体”王坚说:“当前国内可能仅仅有20%~30%的服务器,是真正按照云计算的思路来提供服务的,此外还存在大量传统的服务器。”云计算要最大化地发挥作用,就要作为一种公共服务存在,而不是卖服务器。就像Open AI 与微软的关系一样,Open AI需要的,也不是计算板卡,而是微软提供的云服务。 jvzquC41yy}/|jxv0qxh0ls1ctz0497616541jwva383;?84266`7A>938;10qyon
5.视图计算VECAI智能视频监控系统摄像头上云视频服务视图计算(VEC)依托阿里云边缘节点,是面向视图设备(如摄像头、车载终端等)上云场景,提供连接、视图AI计算、视图云存储的云PAAS服务,通过OpenAPI被应用集成。jvzquC41yy}/cun{wp4dqv4rtqjve}4xu
6.2025百度云智大会举行百舸AI计算平台迎来5.0版本升级昆仑芯超齐鲁网•闪电新闻8月28日记者从今天开幕的2025百度云智大会上了解到,百度智能云对AI计算基础设施进行了全面升级,正式发布百舸AI计算平台5.0全新版本,在网络、算力、推理系统,以及训推一体系统等四大方向上,实现了全面的能力提升,用以打破AI计算效率瓶颈。 jvzquC41uf~x0rvknw4dqv4ujcxf1bX2{OY1zWoezPJV6W|??0nuou
7.定义为“AI计算公司”,业绩大幅下滑的英伟达新变量在哪?眼下这个时代,不谈人工智能概念就不好意思提自己是科技公司,但是实际上,无论是人工智能在哪个领域的应用,最底层的核心还是数据、算法和芯片,并行计算和云计算技术革新是人工智能产业前进的幕后推手。 GPU一个非常重要的作用就是提供数据中心的AI计算能力,如果将数据比做计算机的生活经验,那么学习这些数据并找到价值就是jvzquC41pg}t0qjzwp4dqv4423?.2;24717:8;=28:7/j}rn
8.奥尔特曼:OpenAI计划直接出售计算能力,剑指“AI云”|IT之家|奥尔特曼:OpenAI计划直接出售计算能力,剑指“AI云” (来源:IT之家) IT之家 11 月 10 日消息,行业媒体 Business Insider 于 11 月 7 日发布博文,报道称 OpenAI 首席执行官山姆・奥尔特曼表示,OpenAI 正在寻求“直接向其它公司出售计算能力”的方法,暗示 OpenAI 将和亚马逊、微软和谷歌的云服务直接竞争。jvzq<84m0uooc7hqo0io1jwvkerfa>>753>:;<7a388e8@=4e2<82
9.微软重拾昔日辉煌:反超苹果自2002年以来重回全球市值第一押宝云计算和AI 微软在市值上的一路高歌很大程度上要归功于过去12个月,微软的股价上涨了30%。 11月5日,苹果的评级第二次被华尔街投行的分析师下调后,它的市值终于跌破了万亿美元大关。 而美股市场上跌跌不休的不仅仅是苹果。 曾经领跑大盘的美股科技股风向标FAANG,如今已经沦为难兄难弟,股价也已全部跌入熊市。 jvzquC41hktbplj0gcyuoxsg{0ipo8f142793;53;;=389=8:0nuou
10.nvidia英伟达TeslaT4GPU显卡16GB图灵架构加速AI运算高性能nvidia英伟达Tesla T4 GPU显卡 16GB图灵架构加速AI运算 高性能计算卡,英伟达/NVIDIA Tesla T4 16GB 图灵架构/光线追踪tel:13910098771 NVIDIA Tesla P40 专业运算显卡丽台NVIDIA TESLA P40深度学习机器GPU加速卡HPC超算卡桌面虚拟化 ,英伟达TESLA P100 12G 深度学习GPU加速卡高端运算显卡,英伟达GTX TITAN V Volta 泰坦V高jvzquC41yy}/cyu390ipo8xwrrrz1xkhgtjfvjnn1;;24B970jznn
11.利用机密计算确保AI安全性|NVIDIACTO 参加有关机密计算、常见用例、技术挑战和认证的小组讨论,并对该技术(尤其是 AI)的未来做出预测,由 Felix Schuster (Edgeless Systems CEO) 主持。 立即观看 NVIDIA GPU 上的高性能机密计算 安全专家、NVIDIA 高级总监和杰出架构师参加的高性能机密计算相关会议。 jvzquC41yy}/pnfkc4dp8icvc3dgwygt1ypn~ykqpy0exshkfkovrfn/eunr~ykpi5