后摩尔时代,谁来撑起“国产算力”?

  • 发表于: 2021/10/28 22:12:00 来源:车云网

撰文 | 郑文 编辑|周长贤

在计算机领域,最近有一个非常振奋人心的消息公布。

中国科学技术大学宣布,我国量子计算原型机“九章二号”研制成功,在量子计算机之路上迈出重要一步。量子物理学家、加拿大卡尔加里大学教授巴里·桑德斯认为,这是“令人激动的实验杰作”。

那么,这个国之重器到底有多厉害呢?这个成功构建113个光子、144模式的量子计算原型机算力实现了巨大的提升,求解高斯玻色取样数学问题,比目前全球最快的超级计算机还要快10~24倍。

什么概念?亿亿亿倍!“九章二号”1ms可以算出的问题,全球最快超算需要20万亿年。

2.jpg

一时间,“算力”这个名词,在“九章二号”面前迸发出了强大的威慑力。

当我们后知后觉地去品味“算力”一词时,事实上它早已经完全浸入到我们的日常生活中。此时你通过手机阅读这篇文章,算力也正在运作之中。

进入网络世界,算力更高的高配置PC,能够运行配置需求更高的游戏,和更吃内存的3D类软件;算力低的低配置PC,就很难带得动大型游戏,卡顿、延迟,掉帧,成了家常便饭。

从大型机到PC,从智能手机到可穿戴设备,算力成了人类能力的延伸。于是,一些眼光前瞻的人开始喊出“算力改变世界”、“算力驱动未来”,此时,就到了我们去认识它、正视它、并学着去应用它的时候了。

《2020全球计算力指数评估报告》显示,计算力指数平均每增长一个百分点,数字经济和GDP将分别增长3.3‰和1.8‰,中国2020年的GDP超过100万亿元,1.8‰就差不多约为1800亿元。

去年2月华为发布的一份《泛在算力:智能社会的基石》报告测算,我国目前人均算力约在553 GFLOPS(Giga Floating-point Operations Per Second,每秒所执行的浮点运算次数),而社会智能化成熟阶段的人均算力需达到29000GFLOPS以上。这意味着,我国的算力规模至少需要再翻52倍。

1.jpg

这也不难理解,为什么有人会高举“算力就是生产力”的旗帜。

“算力军备赛”枪声响起

在很多经典的应用创新场景中,都显示出了对算力的强大需求。一个数据很直观地体现了算力在场景应用中的困窘。OpenAI的研究显示,2012~2018年,人工智能模型训练上的算力需求在6年内增长超过30万倍,但芯片算力按摩尔定律同期仅增长7倍。

在汽车行业,随着智能化的发展,也进入到了一个芯片算力紧缺的阶段。同样地,它也成了制约智能汽车发展的一个重要因素。

“决定未来智能驾驶的功能和性能的是芯片。”

黑芝麻智能科技CMO杨宇欣在第三届全球新能源与智能汽车供应链创新大会上表示,“所有电子行业的发展都是从硬件先开始的,因为芯片决定了整个自动驾驶性能和功能的边界,如果硬件上不能支持的东西,软件是怎么也实现不了的,这个是技术规律。”

汽车架构由分布走向集中,催生对更高集成度的SoC芯片的需求。车用计算类芯片主要可分为MCU和SoC芯片。传统汽车分布式架构使用ECU算法,各项功能相互独立,所需算力MCU芯片就可以满足。

但是,在汽车智能化浪潮下,控制集中化已是大势所趋。产业链上的企业均向域控制、集中式控制发展。域控制器集成之前诸多ECU的运算处理器功能,一方面对芯片算力的需求大幅提升,同时也需要域内各控制部分相互协调,相应催生了对SoC芯片的需求。

3.jpg

对比以CPU计算为主的MCU,SoC芯片一般集成了CPU、图像处理GPU、音频处理DSP、深度学习加速单元NPU+内存+各种I/O接口,功能更加强大,目前主要应用于智能座舱与自动驾驶领域。

然而,现实是当下许多计算平台的算力还不如一部iPhone 7,真正意义上的自动驾驶汽车,则需要超过500部iPhone 7的算力。

以智能座舱举例。

目前智能网联迅速进化,2015年智能网联功能的新车装载率仅4.6%,到2020年这个数字直接上升到了48.8%。如此高的装载量,消费者却常常感到体验不佳。在相关汽车调研机构的数据显示,抱怨中控屏反应迟钝的用户达到56.5%,反应系统卡顿的用户达到50.95%。算力支撑力不够,带来了很深刻的用户问题。

计算平台对算力的需求,很大程度上取决于感知系统的巨大升级,包括激光雷达、800万像素摄像头的搭载,另外复杂系统或者SOA架构的实施也对计算平台提出了更高算力需求。

“自动驾驶等级每提高一级,对于算力就增加一个数量级,一般认为,L2需要的算力<10TOPS,L3是30-40TOPS,L4是100TOPS以上,目前对于L5所需的算力行业还没有明确定义。”岚图汽车科技有限公司自动驾驶算法研发总监刘会凯在盖世汽车域控制器论坛上指出,目前计算平台的算力只能支持部分L3、L4开发的需求。

4.jpg

英伟达的预测也显示出算力的重要性,L4级别的无人驾驶汽车在无法完全依靠优化算法的情况下,对车载算力约有50倍的提升要求;而L5级别无人驾驶汽车相对于L4级别预计约有10倍的算力增长要求。

在行业的快速发展下,很快“算力”继“马力”之后,成为评价一辆车的重要指标。2019年特斯拉推出HW3.0芯片时,144TOPS的算力一时间轰动行业,也掀起了SOC芯片算力的军备竞赛。

算力常用的两个计量单位一个是TOPS(Tera Operations Per Second),1TOPS表示处理器每秒钟可进行一万亿次(10^12)操作;另一个是FLOPS(Floating-point Operations Per Second),表示每秒浮点的运算次数。使用时,FLOPS前会有个字母常量,比如TFLOPS、PFLOPS,T、P代表次数,TFLOPS表示每秒一万亿次,PFLOPS表示每秒一千万亿次。

从全球竞争格局看,国际上高端车规级SoC芯片玩家以传统芯片与科技巨头为主。

英特尔以收购Mobileye的方式切入车规级SoC市场;英伟达是全球GPU龙头,全球市占率在70%以上,基于自身在GPU方面的优势,不断推进产品在汽车智能座舱与自动驾驶方面的应用;特斯拉不断加大自身在智能驾驶方面的布局,旗下产品FSD功能不断丰富、性能不断加强。

5.jpg

已经推出的大算力车规级智能驾驶芯片主要有特斯拉 FSD、英伟达 Orin和Mobileye Eye Q4等。英伟达会在2024年推出一个1000TOPS算力的SoC……研发出强大算力的自动驾驶专用芯片,正成为芯片巨头们搏杀的新赛道。

新时代英雄

当竞争渐渐向高阶自动驾驶递进,国产芯片公司需要用更强悍的芯片实力,去和英伟达、高通这样的老牌芯片巨头展开正面战争。

华为作为国产科技引领者,以自动驾驶系统核心零部件及解决方案赋能车企,目前车载SoC方面主要有Ascend 310和Ascend 910芯片。更重要的是,在此赛道中,国内也崛起了不少亮眼企业。


比如,分别推出满足当前主流算力需求芯片A1000、征程5的黑芝麻智能和地平线,黑芝麻发布的A1000 Pro甚至已经是面向下一代的高性能大算力芯片。不论是黑芝麻和地平线的起飞,寒武纪的跃出,对于突破英伟达、高通等芯片巨头的封锁线,有着举足轻重的意义。

作为车规级芯片的国产制造商,黑芝麻智能的实力不可小觑,也是值得一提的独角兽。为什么这么说?黑芝麻目前在这个领域的布局比较超前,在全球范围内,能够提供高规格芯片的,除了国际供应商英伟达,另一家就是黑芝麻。

作为一家成立于2016年的年轻公司,黑芝麻智能一开始给自己的角色定位,就是专注于大算力自动驾驶计算芯片和平台等技术领域的高科技研发。


这样的定位,是非常具有前瞻性的。

根据艾瑞咨询的报告,未来高级驾驶辅助系统将是汽车半导体收入增长最快的领域,其中车载AI芯片(SoC芯片)将发挥关键作用。根据Global Market Insights的数据,车载AI芯片市场规模预计到2026年将增长至120亿美元。

成立以来,黑芝麻智能坚持自研核心IP,深耕人工智能、车规级芯片及自动驾驶三大领域,目前已经拥有较为完整的技术产品体系。

2019年8月,黑芝麻发布首款车规级智能驾驶芯片华山一号A500,算力为10TOPS。在第一款芯片发布之后,黑芝麻的进步非常迅速。

去年6月,华山二号A1000发布,算力就达到116TOPS,支持L3级自动驾驶系统。A1000功耗约8W。值得一提的是,在算力接近特斯拉的前提下,功耗却减少了一半有余。

就在次月,A1000就获得了ISO 26262功能安全产品ASIL B认证,这是国内第一款通过安全认证的自动驾驶计算芯片。


在行业标准中,ASIL等级定义了对系统安全性的要求,共分为A、B、C、D四个等级,严格程度依次递增。ASIL等级越高,对系统的安全性要求越高,也意味着等级越高,系统设计的复杂程度越高,开发周期越长,开发成本越高。

今年,黑芝麻算力再次升级,发布华山二号A1000 Pro,算力最高可达196TOPS。是当前国内算力最高、性能最强的车规级芯片之一。

A1000 Pro基于上一代A1000核心进行设计优化和提升,采用业界创新先进封装工艺集成多个核心,解决了在16nm工艺下支持超大规模深度学习引擎的难题,开创了自动驾驶芯片的先河。内置高性能GPU能够支持高清360度3D全景影像渲染,覆盖L3/L4高级别自动驾驶功能。

目前,A1000 Pro已经宣布流片成功,预计最快在2022年底实现车型量产上市。A1000 Pro满足的ISO 26262功能安全产品认证,直接达到ASIL D级别。


以上的芯片介绍中,除了涉及到非常多的算力,还有两个重点信息:车规标准与性能。车规标准已经有了解释,而关于性能还需要重点提一下。

对于自动驾驶芯片来说,不能仅仅看算力,能效比也是一个重要的评价指标。高能效比不仅能够为汽车节约大量的电力,还能产生更少的热能,有助于芯片模组的散热与高性能稳定运行。也就是说,能效比高的芯片,算力就能有更极致的发挥余地。

它就是杨宇欣所指的核心算力,“关于芯片的核心算力,指的并不是TOPS算力,而是芯片的CPU算力。TOPS是用来深度神经网络加速的,GPU的计算会考验一个芯片综合的计算能力,如何把强大的性能带到在终端领域对性能需求最高的汽车上。”

黑芝麻的芯片性能是非常突出的。单颗A1000芯片适用于L2+自动驾驶、双A1000芯片互联方式支持L3级自动驾驶(算力达140TOPS)、四颗A1000芯片则可以支持L4甚至以上的自动驾驶需求。

保证高算力、高能效的原因,来自于黑芝麻智能自主开发的两大核心IP:NeuralIQ ISP图像信号处理器和深度神经网络算法平台DyanmAI NN引擎。杨宇欣形象地介绍:NeuralIQ ISP图像信号处理器可以让汽车“看得清”,DynamAI NN引擎可以让汽车“看得懂”。

杨宇欣是一个理智的乐观主义者,在他看来中国车规级芯片产业还处于发展初期,黑芝麻智能要面对的挑战是不断突破技术瓶颈,并且要不断提升产品的安全性和可靠性。但他依然认为,自动驾驶车规级芯片国产化的道路充满光明和希望。


像杨宇欣这样为国产高算力芯片努力并抱着强烈希望的人还有很多。“英伟达不是规则的制定者,它有的是大家围绕CUDA的使用惯性。”燧原科技CEO赵立东一直呼吁,“高举高打,创业做最高端的芯片!”

黑芝麻等诸多初创公司筚路蓝缕的努力,对于国产芯片的发展难能可贵,更极其重要。正如最高领导人所说,新时代是需要英雄,并一定能够产生英雄的时代。在芯片领域开疆拓土的新时代,他们也将成为新的时代英雄。


相关标签:
星云号
  • 车云星
  • 空间站
  • 福特星球
  • 虫洞

加料 /

人评论 | 人参与 登录
查看更多评论