国内首款存算一体大算力芯片,瞄准智能驾驶! 当前看点

用存算一体创新架构,重构智能驾驶芯片。后摩智能是国产AI大算力智驾芯片领域跑出的一匹黑马。

ChatGPT等人工智能应用的爆火再次引发了行业对大算力的需求。未来的计算系统相比现在的芯片,至少需要有1000倍甚至更高的效率提升才能满足无处不在的万物智能。AI芯片是AI算力的“心脏”,而高性能的AI芯片需要先进的制程技术来实现更小的晶体管、更高的集成度和更低的功耗。随着摩尔定律在逼近极限,如果继续依靠先进工艺的底层技术创新,沿这个方向走下去,能否达到未来所需的算力提升?不好说。但无论如何,行业正在为之努力。

与此同时,行业内也有人在另辟蹊径,利用底层架构创新来实现算力的提升。近几年来,存算一体在作为一项有望突破算力瓶颈的先进技术,正在被国内外越来越多企业选择。存算一体这种创新的架构,通过将部分或全部的计算移到存储中,把计算单元和存储单元集成在同一个芯片,在存储单元内完成运算,减少数据来回搬运造成的数据传输延迟、损耗等问题,以此来突破芯片性能瓶颈及提升能效比。


(资料图片)

而在存算一体大算力这一领域,国内芯片企业走在了前列。

从0到1,国内首款存算一体大算力芯片正式量产

2023年5月10日,后摩智能正式发布首款存算一体智驾芯片——鸿途H30。仅用12nm工艺制程,该芯片的物理算力实现了高达256TOPS,在Int8全精度的计算提供下,计算延时只有1.5ns,能效比为30-150 TOPS/W,比业界同等精度计算条件下的水平提高了3倍以上。250TOPS可以说是目前国内效率最高的大算力智能驾驶芯片!35W的典型功耗也令人震惊。这就是存算一体架构技术的魅力。

除了大算力和低功耗之外,它还具有全精度、车规级、可量产、通用性的特性。而透过这些突破性技术表现,我们也嗅到了后摩智能浓浓的技术创新实力。

首先是存算一体电路结构的设计,后摩智能采用的是基于SRAM存储介质的存算一体架构,将定制化的乘加电路和传统的SRAM Bit Cell电路完全融合在一起。下图中右图是存算一体电路的架构图,浅色部分是传统的SRAM电路,深色部分是一些定制化的电路结构,包括乘法器、加法数、累加器等,做到数据读取出来之后马上可以在原地参与计算。

其次,H30芯片采用的是后摩智能自研的AI处理器架构—IPU(Intelligence Processing Unit)。目前该IPU架构规划有三代:第一代是天枢架构,面向智能驾驶;第二代是天璇架构,它可以应用于更多的场景;第三代是天玑架构,将面向通用人工智能。H30芯片采用的是第一代天枢架构IPU。

解决了存和算的问题,在数据的传输方面:1)后摩智能专门设计了专用的数据传输总线,它能把各个Tile和各个IPU核连接起来,在它们之间建立高速的、直接的数据传输通道。2)在AI计算里,数据复用是一个非常重要的特性,因此,后摩智能为此设计了独特的多波机制,避免了数据重复的读取和传输。

通过存算电路底层技术的创新加上AI处理器架构的创新,再加上出色的工程实现能力,最终鸿途H30实现了多项芯片性能指标的突破。与某国际巨头芯片对比,在工艺落后一代的情况下,进行完全相同的测试,H30芯片的功耗减少了50%以上,性能却有2倍以上的提升。

为了帮助客户更好的落地,后摩智能同步推出了基于鸿途 H30芯片打造的智能驾驶硬件平台——力驭(Sailing,寓意早日扬帆起航)。仅依靠一颗H30芯片,力驭平台的CPU算力高达200 Kdmips,AI算力高 256Tops,足够支撑智能驾驶所有的传感器。而且力驭平台的功耗仅为85W,可采用更加灵活的散热方式,实现更低成本的便捷部署。

基于鸿途H30芯片后摩智能自主研发了一款软件开发工具链—后摩大道,支持 PyTorch、TensorFlow、ONNX等主流开源框架,编程兼容CUDA前端语法,同时支持SIMD和SIMT 两种编程模型,兼顾运行效率和开发效率,进一步实现了鸿途™H30 的高效、易用。

目前后摩智能的鸿途H30芯片将于6月份开始给Alpha客户送测。同时,后摩智能的第二代产品鸿途H50 已经在全力研发中,将于2024年推出,支持客户 2025年的量产车型。

存算一体技术优势已然显现

当下,在各国都在争抢加速进入人工智能时代的时间节点下,算力是AI技术角逐的源动力。然而持续紧张的地缘关系,国内在先进工艺采用方面的掣肘,使得国产算力的提速面对着多方面的难题,不仅是算力的需求,功耗也是行业所面临的挑战。此次后摩智能率先在存算一体大算力芯片上的突破,可以说用实际产品证明了存算一体技术的优势和潜力。

计算效率高,工艺依赖度低:我们可以看到,后摩智能鸿途H30芯片,所采用的12nm的工艺并不是最先进的,但却能达到超过200TOPS的算力。纵观全球AI芯片的算力发展情况,基于传统路径的芯片在算力提升方面需要很大程度上依赖先进工艺,行业内达到200TOPS算力的AI芯片一般的工艺都要7nm甚至更先进才行,如英伟达的Orin芯片和国内的一些200TOPS左右算力的芯片等大多都是在7nm。更甚之,英伟达的Thor可以实现1000T以上的算力,但是工艺要采用4nm。

与某国际巨头的8nm智驾领域的某款旗舰芯片,以Resnet50网络为例,后摩智能H30的性能在等于1的配置条件下,可以达到8700帧每秒;如果把它设成8,可以突破1万帧,达到10300帧每秒的性能。整体来说后摩H30芯片的性能可以达到友商的2倍以上。

低成本:因为对工艺的依赖性不高,所以可以实现低成本,更加普惠。后摩智能联合创始人兼产品副总裁信晓旭在发布会上透露到:“H30芯片在成本上会非常非常有竞争力。”

更低的能耗:由于数据传输的高效性,存算一体芯片在计算过程中需要消耗更少的能量,从而可以实现更低的功耗,也更符合可持续和低碳环保的理念。

计算延时低:由于存储和计算任务在同一芯片内部完成,存算一体架构芯片能够更快地完成数据的读写和处理,从而提高数据处理的效率。例如,相比业界用5nm工艺的存算一体芯片,后摩智能的鸿途H30芯片在Int8全精度的计算提供下,计算延时只有1.5ns,降低了70%。

支持大规模并行计算:存算一体架构芯片能够支持大规模并行计算,从而更好地满足人工智能、边缘计算、高性能计算等应用的需求。

我们也可以看到,后摩智能的鸿途H30存算一体大算力芯片落地的第一站是智能驾驶。单从市场应用场景来看,存算一体架构的芯片也显现出多个优势:

1:存算一体架构芯片的高效数据传输和计算能力可以帮助实现高效的图像处理;

2:智能驾驶的安全性是行业密切关注的一大问题,而存算一体架构的芯片可以将敏感数据存储在同一芯片中,从而减少了数据传输的风险,提高了数据的安全性;

3:智能驾驶需要支持多种算法和模型,包括神经网络、深度学习等。存算一体芯片可以根据不同的算法和模型进行灵活配置,从而实现更高效的计算和存储。在这方面,鸿途H30芯片可以支持经典的基础网络Resnet50,包括BEV网络模型以及广泛应用于高阶辅助驾驶领域的 Pointpillar网络模型。

后摩智能创始人吴强也表示,从技术和产品需求匹配的角度来看,存算一体带来的技术和产品的优势,和智能驾驶的关键需求是天然吻合的。其原因主要有两方面:一方面是算力功耗的需求;另一方面从终局的角度来看,智能驾驶的终局是要代替人,实现无人驾驶。所以智能驾驶芯片一定要无限接近人脑的效率。而存算一体技术正是一个比传统架构更接近人脑的计算形式,它也能够达到比传统架构高许多的计算效率。

从1到100,存算一体技术将走向更多应用

对于市场空间如此大的智能驾驶,如果后摩智能的鸿途H30芯片能够真正走量并释放出其优势。那么,这将不仅为国产智能驾驶领域的客户们提供一个差异化的新选择,也将为存算一体架构的芯片的大规模发展奠定良好的基础。许多机构都预测2023年将是存算一体大规模商业落地的元年,伴随着此次鸿途H30芯片的量产发布,存算一体技术的商业化元年也即将正式开启。

作为一项通用技术,存算一体技术可以根据不同领域和应用场景进行优化和应用。智能驾驶只是存算一体技术应用的冰山一角,存算一体还有很大的应用可能性和商业价值的潜力深埋于底下。比如人形机器人,服务机器人,以及对算力和能效有更高要求的场景如ChatGPT、云端推理等等都将是存算一体技术能够发挥所长的应用。

当然,存算一体技术的更大商用化还需要产业界上下游的共同努力,让存算一体技术的规模化应用从1走向100。后摩智能联合创始人兼研发副总裁陈亮在会上透露:“在不久的将来,我们会把我们的AI处理器硬件设计开源,大家可以去下载到我们的IPU设计资料,做PPA的评估和软件算法的开发,或者甚至将来用到自己的产品当中去。我们希望有更多的人和组织能够参与进来,相信以大家的智慧可以更好的让这个方向落地,大家可以共建生态,最终让整个产业链受益。”

写在最后

2020年11月成立,2022年5月验证芯片成功点亮,2023年5月量产芯片面世,对于存算一体新架构+大算力这样一项颠覆性技术而言,这个速度彰显了后摩智能的产品落地能力。通过不断突破技术瓶颈和持续的研发投入,后摩智能成功地将存算一体的概念应用于大算力AI芯片,并实现了高性能计算与低能耗的平衡。后摩智能的存算一体AI芯片取名鸿途,寓意是有鸿鹄之志,但是又脚踏实地,走向漫漫征途。

凭借这一芯片的落地,后摩智能迅速成长为国产AI芯片行业的重要创新力量。而且在当下大算力AI芯片发展遭遇瓶颈之际,作为国内率先落地存算一体大算力AI芯片的公司,后摩智能用实打实的产品,为我国发展高算力、低功耗和低成本的AI芯片注入新的发展动能。

关键词:

编辑: MO
下一篇: 最后一页

相关新闻

精彩推送