《信息技术:汽车自动驾驶算法行业专题.docx》由会员分享,可在线阅读,更多相关《信息技术:汽车自动驾驶算法行业专题.docx(19页珍藏版)》请在第一文库网上搜索。
1、信息技术:汽车自动驾驶算法行业专题1、自动驾驶数据驱动下的算法迭代1.1、 自动驾驶算法是感知、预测、规划、控制的结合体自动驾驶算法反应了工程师们根据人的思维模式,对自动驾驶所需处理过程的思考。通常包含感知、预测、规划模块,同时辅助一些地图、定位等模块,实现自动驾驶功能的落地。1.1.1, 感知:感知外部世界感知模块主要解决四类任务:(1)检测:找出物体在环境中的位置;(2)分类:明确对象是什么,如分辨不同类别交通标志;(3)跟踪:随着时间的推移观察移动物体,通常采用跨帧追踪对象(将不同帧中检测到的对象进行匹配)、BEV加入时序信息等实现;(4)语义分割:将图像中的每个像素与语义类别匹配,如道
2、路、天空、汽车等,用于尽可能详细了解环境。以APo1iO感知算法框架为例,其算法包含预处理、神经网络模型、后处理等模块。首先图像预处理主要是对图像进行调整、畸变校正等,使之更符合机器学习的要求。其次分别对红绿灯、车道线、障碍物等特征进行检测,其中红绿灯通过检测边框、颜色等进行进一步的识别:障碍物则经过2D到3D的转换,得出真实的信息坐标,再融合车道线检测信息、外部传感器信息等得出真实世界的障碍物信息。该部分通常采用全卷积神经网络或者YO1O等算法实现。1.1.2, 预测:理解外部环境和当前状态预测模块实际上是算法对外部环境和自车状态的理解。预测模块首先收集感知模块输入的车道线、障碍物、红绿灯、
3、地图、定位等信息对主车的状况进行判断。其次场景感知模块对外部障碍物的优先级、路权等外部环境对主车的影响进行感知。评估器则会根据场景信息和障碍物信息判断出障碍物的轨迹或意图。预测器则根据短期的预测轨迹和意图判断障碍物等外部环境相对长期的轨迹。这将为未来汽车的规划提供重要的参考。算法层面通常以RNN为主。图3:百度APono的算法中,预测模块包含场景理解、评估、预测等环节感知信息容涔场景感知预测器消息处理Adcobstac1eStorytoiIing优先级交互标签路权场景特征评估希1.1.3, 规划:思考如何行动规划指找到合理路径来到达目的地。规划通常分为全局路径规划、行为规划与运动规划几个部分。
4、其中,全局路径规划指智能汽车依靠地图规划出理想状态下到达目的地的路径。行为规划则是主车在实际行驶的过程中,面临实时的交通环境,做出的各类驾驶行为,如跟车、换道、避让等。运动规划生成与驾驶行为对应的驾驶轨迹,包含路径规划和速度规划。最后再采用一些优化方式让变道加速等行为变得平顺以满足舒适性要求。算法层面,通常采用基于规则的规划决策算法,前沿的玩家也开始引入机器学习等方式,以提升决策效能。1.2、 数据:算法的养料,现实与虚拟的交织算法、算力和数据是人工智能的三大要素,数据在模型训练中拥有不可忽视的影响。一方面,TranSfOrmer等大模型在大体量数据集训练下才能表现更佳的特性带来其对训练端数据
5、的要求激增,特斯拉在2023年A1DAY上曾表示,训练其占用网络采用了14亿帧图像数据。另一方面,由于自动驾驶面临的场景纷繁复杂,诸多长尾问题需要在现实或虚拟场景中获取。因此数据闭环在自动驾驶领域弥足重要。毫末智行将数据作为“自动驾驶能力函数”的自变量,认为是决定能力发展的关键,Momenta也曾表示,14要实现规模化,至少要做到人类司机的安全水平,最好比人类司机水平高一个数量级,因此需要至少千亿公里的测试,解决百万长尾问题。数据挖掘和针对性的训练能显著减少COrnerCase。以特斯拉为例,在面临一个看起来像临时停车但实际上是永久停车的场景时,最初算法会将其判定为临时停车。当特斯拉通过数据挖
6、掘在训练集中增加了1.4万个类似场景的视频并训练模型后,神经网络便理解了这辆车里面没有司机,将其判别为永久停车。2、大模型横空出世,自动驾驶奇点来临早期自动驾驶方案采用激光雷达+高精度地图为主。早期市场以传统计算机视觉和专家系统为基础构建辅助驾驶功能,随后人工智能的蓬勃发展让深度学习在自动驾驶领域被广泛使用,以waymo为代表的自动驾驶先驱玩家开创了激光雷达+高精度地图的感知范式,Cruise,百度等巨头纷纷效仿。该方案中,对道路结构、车道线等静态环境元素的感知强依赖高精度地图,而实时的动静态障碍物信息则强依赖激光雷达。高精地图成为一项“基础设施”,将很多在线难以解决的问题提前存储到地图数据中
7、,行车时作为一项重要的感知数据来源,减轻传感器和控制器的压力。由于该方案只能在有图地区行驶,也被一些人形象的称为“有轨电车。高昂的单车成本和高精度地图成为自动驾驶大规模推广瓶颈。Robotaxi成本高昂(Yo1e统计早期Waym。为代表的的自动驾驶汽车改装成本约为20万美元),高精度地图采集制作以及合规要求繁杂(量产落地过程中,高精度地图面临:采集成本高;人工修图制图费时费力;地图鲜度不足;国内法规严格等困难),带来该方案的泛化性较差。经过数十年的发展,Robotaxi的使用范围仍被限制在特定区域,使用对象也仅局限在商用车领域。市场亟待出现一种单车性能强大、成本低廉的自动驾驶解决方案。2.1、
8、 BEV+Transformer横空出世,大模型推动自动驾驶迈向普及2023年特斯拉推出BEV+transformer、重感知轻地图的自动驾驶解决方案,开启了自动驾驶行业新的篇章。2.1.1、 BEV感知助力成为感知外部世界标准范式BEV全称为BirdSEye-VieW(鸟瞰图),即通过神经网络将各个摄像头和传感器获取的信息进行融合,生成基于俯视的上帝视角的鸟瞰图,同时加入时序信息,动态的对周边环境进行感知输出,便于后续预测规划模块使用。正如人类一样,驾驶行为需要将各处观察到的信息综合到统一的空间中,来判别什么地方是可以行驶的区域。究其原因,驾驶行为是在3D空间中的行为,而鸟瞰图则是将2D的透
9、视空间图像转换为3D空间,不存在距离尺度问题和遮挡问题,使得算法可以直观的判断车辆在空间中的位置以及与其他障碍物之间的关系。2.1.2、 Transformer大模型为构建BEV空间提供最优解2023年特斯拉在AIDay上第一次将BEV+transformer的算法形式引入到自动驾驶,开启了自动驾驶的崭新时代。首先BEV空间的构建,实际上就是寻找一种恰当的方式,将多个2D的图像和传感器信息综合转化成为一个3D的向量空间。经过多次尝试,特斯拉最终引入了TranSfoiTner大模型来实现这一转换。TranSfOrmer大模型是近年人工智能领域的热门算法,其主要通过注意力机制来分析关注元素之间的关
10、系进而理解外部世界。早年被应用于自然语言处理领域,后续延展到计算机视觉等多个方向。算法的优势显著:具有更好的全局信息感知能力:TranSfOrmer模型更关注图像特征之间的关系,因此会跟多关注整个图像的信息,卷积神经网络更多关注固定大小区域的局部信息,因此Transformer在面对图像中长程依赖性的问题拥有更好的表现。天花板高企适用于大规模数据训练场景:在图像识别能力方面,TranSfOrmer拥有更高的上限,随着训练数据量的增长,传统CNN模型识别能力呈现饱和态势,而TranSfOrmer则在数据量越大的情况下拥有更好的表现。而自动驾驶洽洽为面向海量的数据场景,要求有足够好的精度的场景。拥
11、有多模态感知能力:TranSfOrmer可实现多模态数据的处理,应对图像分类、目标检测、图像分割功能,并实现对3D点云、图像等数据的融合处理。灵活、较好的泛化性能:TranSfOrmer可适用于不同大小的输入图像,同时外部环境包含扰动的情况下仍能保持较好的检测性能。但CNN网络在提取底层特征和视觉结构方面有比较大的优势,而在高层级的视觉语义理解方面,需要判别这些特征和结构之间的如何关联而形成一个整体的物体,采用Transformer更加自然和有效。同时CNN也拥有更好的效率,可以采用更低的算力实现效果。因此业界通常会将CNN和Transformer结合来进行物体识别。2.1.3、 特斯拉引领打
12、开自动驾驶天花板特斯拉的自动驾驶算法结构中,首先将摄像头信息无损采集,送入卷积神经网络Regnet来提取不同尺度的图像特征,接着使用BiFPN进行特征融合,然后将这些特征送入TranSfOrmer模块,利用Transformer中的多头注意力机制来实现2D图像特征到三维向量空间的转换和多摄像头特征系信息的融合,之后接入不同的头如交通标志检测、障碍物检测等,来实现不同任务的处落地,形成一套优雅的,可完美实现数据驱动的感知算法。由于不同的头”之间采用了共享的特征提取网络,因此被特斯拉起名为九头蛇”算法架构。特斯拉的BEV+Transformer算法中两个环节尤为关键:(1) 2D图像到3D空间的转
13、换以及图像融合:在2D图像到3D向量空间转换的环节,特斯拉在行业内首次引入了TranSfOrmer。具体而言,先构建一个想要输出的三维的栅格空间,并对其进行位置编码成为查询向量(QUery),然后将每个图像和自己的特征输出相应的查询键码(Key)和值(VaIUe),最终输入到注意力机制中输出想要的结果。类似于每个图像中的特征都广播自己是什么物体的一部分,而每个输出空间的位置像素像拼图一样,寻找对应的特征,最终构建出希望输出的向量空间。(QueryKeyVaIUe分别为TranSformer算法中的参数,通过将外部世界转化为参数而实现信息处理和任务输出)(2)加入时序信息,让算法拥有“记忆:为了
14、让自动驾驶算法拥有类似一段时间内记忆的能力,特斯拉在感知网络架构中加入了时空序列特征层。通过引入惯性导航传感器获取的包含速度和加速度等自车运动的信息,算法模型可获取时间和空间的记忆能力。具体而言,特斯拉给算法加入特征队列模块(FeatUreQUeue),他会缓存一些特征值(包含历史帧的BEV特征、惯导传感器信息等),便于了解车辆行动,这个序列包含时间和空间记忆。然后引入视频模块(VideoModUIe)使用空间循环神经网络(SPatiaIRNN)transfOrmer等算法将前述缓存的特征进行融合,关联前后时刻信息,使得模型具有记忆能力,让自动驾驶汽车将同时能够记住上一段时间和上一段位置的检测
15、信息。困14:特斯拉为感知部分加入时序信息已增强其“记忆”Ve1ocityofDtctdCars20x80x256时序信息融合特征序列(存储时序信息)车辆运动学信息KinuticiMu1ti-camftfS20x80x256IMUMu1ti-camerafusion&BEVtransform多摄像头融合及BEV视角转换mu1ti*1featuresBiFPNReNtRctifyrawRpatry共享骨干网络提取图像特征2.1.4、 BEV+Transformer大模型提供远强于传统自动驾驶算法的感知能力(1)改善2D-3D空间转换过程中深度预测难点,感知性能大幅提升引入BEV+Transformer后,模型对于2D空间向3D空间转换的精度大幅提高。构建BEV模型一大重要任务是实现2D图片到3D空间的转换,通常业内有四大类方式实现2D-3D视角转换:早期通常以基于相机内外参数(焦距、光芯、俯仰角、偏航角和地面高度)的几何变换的IPM(逆透视变换)实现,由于该方式基于地面纯平、俯仰角一定的假设,约束条件实现难度高;后续英伟达推出BEV行业的开山之作1SS算法,但由于其计算量庞大以及精度仍然有限,难以支撑BEV的真正落地;其后学界业界探索了众多方案,包含基于神经网络,通过监督学习数据驱动实现BEV空间构建等方式,但深度估计的精度均不尽人意。2