CVPR 2023 最佳论文 UniAD | 全栈可控端到端自动驾驶方案

当地时间6月21日，国际电子与电气工程师协会（IEEE）举办的2023年国际计算机视觉与模式识别会议（CVPR，IEEE/CVF Conference on Computer Vision and Pattern Recognition）公布了最佳论文等奖项，上海人工智能实验室（以下简称“实验室”）主导的研究工作《以路径规划为导向的自动驾驶》（英文：Planning-oriented Autonomous Driving；简称UniAD），摘得最佳论文奖（Best Paper Award）。这是近十年来计算机视觉三大顶级会议（CVPR、ICCV、ECCV）第一篇来自中国研究机构（包括港澳台地区）的最佳论文奖。同时，这是CVPR历史上第一篇以自动驾驶为主题的最佳论文。

论文：
https://arxiv.org/abs/2212.10156

代码：

https://github.com/OpenDriveLab/UniAD

CVPR全体会议演讲材料：

https://opendrivelab.com/e2ead/UniAD_plenary_talk_slides.pdf

大会官方组委会（Award Committee）给出的获奖理由是：该文章提出一个端到端的感知决策一体框架，融合了多任务联合学习的新范式，使得进行更有效的信息交换，协调感知预测决策，以进一步提升路径规划能力。

实验室与武汉大学研究团队联合提出的UniAD工作，是业界首个具备全栈关键任务的端到端自动驾驶模型，开创了以终极任务为全局优化目标的自动驾驶算法架构先河，达到了国际领先水平、并得到了国际权威会议认可。该工作为自动驾驶大模型与行业垂直应用提供了重要指引与设计思路。

相比于业界其他方案，例如美国Waymo、Cruise等自驾公司普遍采用的“独立并行模型”架构设计模式，美国特斯拉、中国小鹏汽车等提出的“多任务共享网络”架构设计模式，美国英伟达、德国马克斯普朗克研究所（MPI）、英国Wayve自驾公司等提出的“直接端到端方案”，UniAD首次将全栈关键任务端到端地包含在一个统一的网络架构中，提出“全栈可控端到端方案”，并受益于系统联合调优，取得了优异效果。技术上，本方案利用多组查询向量（query）串联起多个任务，并在网络中传递信息，将所有融合的信息传至最终的规划模块。同时，每个模块的Transformer架构可以有效地对查询向量通过注意力机制进行交互。UniAD 能够显著节省计算资源，避免不同任务模块的累积误差。该研究发现了在正确的任务架构方式下，前序任务能够互相帮助，并可以提升驾驶安全舒适体验。

一、UniAD: 业界首个具备全栈关键任务的端到端自动驾驶模型

UniAD 首次将感知、预测、规划等三大类主任务、六小类子任务（目标检测、目标跟踪、场景建图、轨迹预测、栅格预测和路径规划）整合到统一的端到端网络框架下，实现了全栈关键任务驾驶通用模型。在 nuScenes 真实场景数据集下，所有任务均达到领域最佳性能（State-of-the-art），尤其是预测和规划效果远超之前最好方案。

自动驾驶是一项高度复杂的技术，需要多个学科领域的知识和技能，包括传感器硬件、机器学习、多模态融合等内容。自动驾驶还需要适应不同国家与地区的道路规则和交通文化，与其他车辆和行人进行良好的交互，以实现高度可靠和安全的自动驾驶系统。面对这种复杂的场景，大部分自动驾驶相关的工作都聚焦在具体的某个模块，关于框架性的研究与思考相对匮乏。

虽然以往大多数显式端到端自动驾驶工作都关注了感知、决策和规划三部分，但具体任务存在差异，且没有框架融合所有的任务。究其原因可能有两方面：一方面受限于对自动驾驶的认识，研究者们没有对任务之间的关联和构建方式研究清楚；另一方面受限于模型的最终效果，或许有人曾经尝试过把全部任务融合，但是效果不佳。

UniAD能够成功解决不同任务的融合难的问题，从而实现多任务和高性能的关键在于以下两点：

二、技术效果展示

晴天直行

UniAD 可以感知左前方等待的黑色车辆，预测其未来轨迹（即将左转驶入自车的车道），并立即减速以进行避让，待黑色驶离后再恢复正常速度直行。

雨天转弯

在视野干扰较大且场景复杂的十字路口，UniAD 能通过分割模块生成十字路口的整体道路结构（如右侧 BEV图中的绿色分割结果所示），并进行大幅度左转的规划。

夜晚转弯

三、对自动驾驶大模型领域的启发

上海人工智能实验室青年科学家李弘扬博士补充道，“UniAD工作奠定了多任务端到端自动驾驶大模型的基础，该工作具有很强的可扩展性，在增大模型参数与扩充海量数据双轮驱动的情况下，可以进一步实现自动驾驶大模型，赋能行业应用与相关自驾产品落地”。作为通用视觉大模型“书生谱系”的自然延伸，是实验室大模型体系在下游应用、AI赋能的重要体现。实际应用层面，UniAD提供了全套关键自动驾驶任务配置，其充分的可解释性、安全性、与多模块的可持续迭代性，是目前为止最具希望实际部署的端到端模型。这套基于视觉的全栈自动驾驶框架，据初步测算，每年节省激光雷达与标注成本可达千万级。

上海人工智能实验室持续输出原创技术，对标甚至超越国际先进方案。作为国内科技行业的参与者，愿意与国内学界、产业界一道共同思考、共同进步。

本文来源：公众号【OpenDriveLab】