为了安全起见,自动驾驶汽车必须能够准确地跟踪周围的行人、自行车和其他车辆的运动。现在,据外媒报道,美国卡内基梅隆大学(Carnegie Mellon University)研发了一种新方法,可更高效地训练此类跟踪系统。
(图片来源:卡内基梅隆大学)
一般而言,用于训练跟踪系统的道路数据和交通数据越多,结果就会越好。为此,卡内基梅隆大学的研究人员研发了一种新方法,用于解锁大量的自动驾驶数据。
大多数自动驾驶汽车主要依赖一种称为激光雷达的传感器进行导航。激光雷达是一种产生有关车辆周围环境3D信息的激光设备,此种3D信息不是图像,而是点云。车辆采用一种称为场景流的技术了解此类数据,其中包括计算每个3D点云的速度和轨迹。一起移动的点云组通过场景流被释义为车辆、行人或其他移动的物体。
过去,训练此类系统最先进的方法是需要使用带有标记的数据集,此类传感器数据已经被注释,随着时间推移,会跟踪每个3D点云。但是,手动标记此类数据集既费力又昂贵,因此,几乎没有标记好的数据存在。相反,场景流训练通常利用模拟数据进行,效率更低,之后会利用少量已标注好的真实世界数据进行微调。
卡内基梅隆大学的研究人员则采用了不同的方法,采用未经标记的数据进行场景流训练。因为通过在汽车上安装激光雷达,并让车辆四处行驶,生成未标记的数据相对简单,而且数据不会短缺。
该种方法的关键是研发一种方法,让系统能够在场景流中探测到自己的错误。在每一个瞬间,该系统都尝试预测每一个3D点云的移动方向和移动速度。在下一个瞬间,该系统就能够测量出点云预测位置与靠近点云预测位置最近的实际位置之间的距离,该距离就是一种错误,需要尽可能实现最小化。
然后,该系统会将该过程逆转,从预测的点云位置开始,向后映射出点云的起始位置。因此,会测量预测位置与实际起始位置之间的距离,从而产生了第二种错误。
然后,该系统会纠正此类错误。
虽然听起来很复杂,不过研究人员发现此种方法很有效。研究人员们计算出,利用合成数据训练集执行场景流训练的精度只有25%。当采用了少量的真实世界经标记数据微调合成数据时,准确率提高至31%;当加入大量未标记的数据以利用他们的方法训练系统时,场景流的精度跃升至46%。