自动驾驶 SoC:CPU+XPU 是当前主流,英伟达当前领先 自动驾驶芯片是指可实现高级别自动驾驶的 SoC 芯片。随着自动驾驶汽车智能 化水平越来越高,需要处理的数据体量越来越大,高精地图、传感器、激光雷 达等软硬件设备对计算提出更高要求,因此在 CPU 作为通用处理器之外,增加 具备 AI 能力的加速芯片成为主流,常见的 AI 加速芯片包括 GPU、ASIC、FPGA 三类。 CPU 作为通用处理器,适用于处理数量适中的复杂运算。CPU 作为通用处理 器,除了满足计算要求,还能处理复杂的条件和分支以及任务之间的同步协调。 CPU 芯片上需要很多空间来进行分支预测与优化,保存各种状态以降低任务切 换时的延时。这也使得它更适合逻辑控制、串行运算与通用类型数据运算。以 GPU 与 CPU 进行比较为例,与 CPU 相比,GPU 采用了数量众多的计算单元 和超长的流水线,但只有非常简单的控制逻辑并省去了 Cache。而 CPU 不仅 被 Cache 占据了大量空间,而且还有有复杂的控制逻辑和诸多优化电路,相比 之下计算能力只是很小的一部分。 ![]()
常见的 AI 加速芯片包括 GPU、ASIC、FPGA 三类: GPU:适用于处理数量庞大的相对简单的运算。GPU 拥有一个由数以 千计的更小、更高效的 ALU 核心组成的大规模并行计算架构,大部分 晶体管主要用于构建控制电路和 Cache,而控制电路也相对简单,GPU 的计算速度有拥有更强大的处理浮点运算的能力,更擅长处理多重任 务,比如图形计算。 FPGA:现场可编程门阵列,它是在 PAL、GAL、CPLD 等可编程器件 的基础上进一步发展的产物。它是作为专用集成电路领域中的一种半定 制电路而出现的,既解决了定制电路的不足,又克服了原有可编程器件 门电路数有限的缺点。 ASIC:一种为专门目的而设计的集成电路。是指应特定用户要求和特 定电子系统的需要而设计、制造的集成电路。ASIC 的特点是面向特定 用户的需求,在批量生产时与通用集成电路相比具有体积更小、功耗更 低、可靠性提高、性能提高、保密性增强、成本降低等优点。 “CPU+XPU”是当前自动驾驶 SoC 芯片设计的主流趋势。根据 XPU 选择不 同,又可以分为三种技术路线:CPU+GPU+ASIC、CPU+ASIC 以及 CPU+FPGA 三类。 (1)“CPU+GPU+ASIC”,主要代表英伟达、特斯拉 FSD 以及高通 Ride。 英伟达 Xavier 和特斯拉 FSD 采用“CPU+GPU+ASIC”的设计路线,英伟达 Xavier 以 GPU 为计算核心,主要有 4 个模块:CPU、GPU、以及两个 ASIC 芯片 Deep Learning Accelerator(DLA)和 Programmable Vision Accelerator (PVA);特斯拉 FSD 芯片以 NPU(ASIC)为计算核心,有三个主要模块:CPU、GPU 和 Neural Processing Unit(NPU)。 ![]()
(2)“CPU+ASIC”,主要代表 Mobileye EyeQ5 系列和地平线征程系列。 Mobieye EyeQ5 和地平线征程系列采用“CPU+ASIC”架构,EyeQ5 主要有 4 个模块:CPU、Computer Vision Processors(CVP)、Deep Learning Accelerator (DLA)和 Multithreaded Accelerator(MA),其中 CVP 是针对传统计算机视 觉算法设计的 ASIC;地平线自主设计研发了 Al 专用的 ASIC 芯片 Brain Processing Unit(BPU)。 (3)CPU+FPGA,主要代表 Waymo。与其余厂商不同,Waymo 采用 “CPU+FPGA”的架构,其计算平台采用英特尔 Xeon12 核以上 CPU,搭配 Altera 的 Arria 系列 FPGA。 目前各家发布的最新芯片平台均可以支持 L3 或 L4 级的算力需求,英伟达当前 处于领先位置。英伟达单颗 Orin 的算力可以达到 254TOPS,而 2022 年落地 的车型中搭载 4 颗 Orin 的蔚来 ET7 和威马 M7 其巅峰算力将超过 1000TOPS, 高通骁龙 Ride 平台的巅峰算力预计在 700-760TOPS,Mobileye 也推出了面向 高阶自动驾驶的 EyeQ6 Ultra,算力达到 176 TOPS,当前各家最先进的算力平 台均可以支持 L3 或 L4 级的算力需求。从相关量产车型来看,英伟达 Orin 成为 当下的主流选择,Mobileye 正在逐渐掉队。 ![]()
评估芯片性能,算力、能耗、效率缺一不可 评估芯片的性能,一般采用 PPA 即 Power(功耗),Performance(性能), Aera(面积)三大指标来衡量性能。而智能驾驶领域,峰值算力成为衡量自动 驾驶芯片的最主要指标,常见的指标有 TOPS、FLOPS、DMIPS 三种: TOPS(Tera Operation Per Second):每秒完成操作的数量,乘操作算 一个 OP,加操作算一个 OP。TOPS 的物理计算单位是积累加运算(Multiply Accumulate, MAC),1 个 MAC 等于 2 个 OP。TOPS 表示每秒进行 1 万 亿次操作。 FLOPS(Floating-Point Operations Per Second):每秒可执行的浮点 运算次数的字母缩写,它用于衡量计算机浮点运算处理能力。浮点运算, 包括了所有涉及小数的运算。MFLOPS(MegaFLOPS)等于每秒 1 百万 次的浮点运算;GFLOPS(GigaFLOPS)等于每秒 10 亿(=10^9)次的 浮点运算;TFLOPS(teraFLOPS)等于每秒 1 万亿次的浮点运算。 DMIPS(Dhrystone Million Instructions Per Second):是测量处理器 运算能力的最常见基准程序之一,常用于处理器的整型运算性能的测量。 MIPS:每秒执行百万条指令,用来计算同一秒内系统的处理能力,即每秒 执行了多少百万条指令。不同的 CPU 指令集不同、硬件加速器不同、CPU 架构不同, 导致不能简单的用核心数和 CPU 主频来评估性能,Dhrystone 作为统一的跑分算法,DMIPS 比 MIPS 的数值更具有意义。 (1)智能座舱 SoC: DMIPS 衡量 CPU 算力的主要单位是 DMIPS,基本上 SoC 高于 20,000 DMIPS 才能流畅地运行智能座舱的主要功能,如 AR 导航或云导航、360 全景、播放 流媒体、AR- HUD、多操作系统虚拟机等。GPU 方面,100 GFLOPS 的算力 就可以支持 3 个 720P 的屏幕。一般来说,CPU 高于 20,000 DMIPS,GPU 高 于 100 GFLOPS 的 SoC 就是智能座舱 SoC 芯片。 (2)自动驾驶 SoC: TOPS 峰值算力体现的只是芯片的理论上限,不能代表其全部性能。自动驾驶 需要的计算机视觉算法是基于卷积神经网络实现的,而卷积神经网络的本质是 累积累加算法(Multiply Accumulate,MAC),实现此运算操作的硬件电路单 元,被称为“乘数累加器”。这种运算的操作,是将乘法的乘积结果 b*c 和累 加器 a 的值相加,再存入累加器 a 的操作。TOPS = MAC 矩阵行* MAC 矩阵列 * 2 *主频,TOPS 峰值算力反映的都是 GPU 理论上的乘积累加矩阵运算算力, 而非在实际 AI 应用场景中的处理能力,具有很大的局限性。以英伟达的芯片为 例,Orin、Xavier 的利用率基本上是 30%左右,而采用 ASIC 路线,ASIC 芯片 针对不同的神经网络模型去优化,基本上可以做到 60%~80%之间。 ![]()
地平线提出最真实的 AI 效能由理论峰值计算效能、有效利用率、AI 算法效率 组成。地平线在 2020 全球人工智能和机器人峰会提出了芯片 AI 性能评估方式 MAPS(Mean Accuracy-guaranteed Precessing Speed),地平线认为最真实 的 AI 效能实际上由三要素组成,分别为理论峰值计算效能、有效利用率、AI 算法效率。(1)理论峰值计算效能,TOPS/W、TOPS/$,即传统理论峰值衡 量的方法;(2)芯片有效利用率,把算法部署在芯片上,根据架构特点,动用 编译器等系统化解决一个极其复杂的带约束的离散优化问题,而得到一个算法 在芯片上运行的实际利用率,这是软硬件计算架构的优化目标;(3)AI 算法 效率,每消耗一个 TOPS 算力,能带来多少实际的 AI 算法的性能,它体现的是 AI 算法效率的持续提升。
|