编者按:5月13日,由盖世汽车与AUTOSEMO联合主办的2022汽车行业数字化转型发展线上论坛·第二期正式举行。毫末智行技术总监潘兴受邀出席并发表《MANA的进化之路》的主题演讲。盖世汽车根据演讲整理成文,以分享读者。
截至2022年4月,使用毫末辅助驾驶系统的用户累计行驶里程已突破700万公里。2022年第一季度,毫末HPilot月度搭载增幅超过200%,未来2年,毫末智行预计搭载的乘用车数量超过100万台,覆盖车型将达到34款,目前已在坦克300、坦克500、魏牌摩卡、魏牌拿铁DHT、魏牌玛奇朵DHT、哈弗神兽6款车型中实现量产。除了乘用车的辅助驾驶之外,毫末智行也在助力合作伙伴,包括与美团、阿里达摩院、物美多点共同研发末端物流自动配送车,另外在智能硬件方面,毫末智行也拥有全栈自研能力。
末端物流自动配送方面,毫末智行已积累有近5万单的配送总量。其中数据是自动驾驶里面非常核心的资源,也是非常核心的竞争力。其提出了关于数据的思想钢印:通过实际的车端的大量用户在使用产品的过程中产生的数据,通过这些数据的处理和挖掘,来反馈提升毫末智行算法的能力,进而把更多更优秀的算法布入到车端,形成数据的闭环。这是自动驾驶迭代的必经之路。
用成本和速度考量自动驾驶技术在整个过程中的实现效果,毫末智行认为只有用更低的成本,更高的速度,基于数据迭代算法,才能使毫末智行在激烈的市场竞争中处于优势的地位。成本包括了数据的收集成本,处理成本,AI的训练成本和测试成本,同样速度也会有对数据的收集速度,处理速度,训练速度和测试速度。为了实现成本的最低,速度的最快,毫末智行开发了MANA数据智能体系,包括以LUCAS为核心的整个数据的自迭代,数据的挖掘的一套系统以及毫末智行在车端的原型,以及感知,认知算法定位,以及仿真等等。毫末智行还基于底层搭建了数据的大规模的存储,车端的中间件,以及数据回传的能力,以及VENUS,主要对数据进行统计和分析,以及前端展示进行的工作。
自动驾驶在近两年发展中,产生了三点变化。
自动驾驶在车端的芯片算力越来越强,像早些年自动驾驶在车端算力很弱,类似于MCU这样的一个微控制单元只有几百G的异构算力,但是现在随着今年高通,英伟达得到都在加强自己在车端的算力,现在几百T甚至上千T已经成为了现实。
随着算力的增加,在一些更大的网络模型,或者说一些更新的网络结构慢慢进入自动驾驶行业的赛道中,像以前这种模型在NLP领域可能用的更多,但是现在随着一方面在视觉领域,在学术界用的越来越多,另一方面,随着算力的增加,Transformer在自动驾驶发展过程中也扮演着越来越多重要的角色。
此外,智能汽车对车载摄像头分辨率越来越高,而且摄像头的数量越来越多。早期是1V5R,一个摄像头加5个毫米波雷达之类的。这两年最新的产品,包括规划的产品,摄像头通常超过10个。
毫末智行看到算力越来越强,传感器的感知能力越来越强,以及可用的模型算力越来越强。通过这三个变化,我们就可以看到它们将促成毫末智行在整个自动驾驶领域,使用数据,利用数据的方式,也会产生了新变化。
智能驾驶 感知为先
在感知方面,毫末智行已经包括了数据的一些回传,数据的挖掘,标注,测试,训练,包括云端诊断泛化这些基础的功能,最近毫末智行发布了具备城市NOH功能的HPilot 3.0,预计在近期正式上市。
对红绿灯的处理上,因为城市和高速一个最大的区别就是路口非常多,因此对于路口的处理,尤其对于路口红绿灯的处理格外的重要。过去robotaxi,处理这种问题主要是依赖的高精地图,可以把道路的拓扑信息,包括红绿灯的绑路信息都做到高精地图里面,只要和高精地图的这些元素进行匹配之后,就可以很容易的知道当下毫末智行看到红绿灯负责是哪条车道的拓扑。但是高精地图成本较高,我国路况又十分复杂,如何在没有高精地图覆盖和普及的城市实现自动驾驶,就是毫末智行在开发城市自动驾驶时必须要面对的问题。
针对这个问题,毫末智行首先要解决识别红绿灯的问题,识别红绿灯主要是识别信号,而且异型红绿灯很多,各地不一样,在这个过程中毫末智行主要是使用了仿真,通过使用仿真数据和迁移学习,毫末智行将仿真的数据和现实数据进行了合成和模拟,可以使毫末智行非常轻松的补充到非常多异型红绿灯,而且获取数据的成本大幅降低。
此外,当毫末智行能够识别红绿灯之后,处理红绿灯的绑路,通过深度学习网络,毫末智行会在数据里识别和区分红绿灯,另一方面毫末智行会通过网络去训练,让网络自己学习,图片的什么区域更容易出现控制我这条车道的红绿灯,通过将检测结果相结合,以大量的数据去学习红绿灯和道路的拓扑关系。
通过这两种方法,目前毫末智行已经在城市里面实现了非常理想的红绿灯检测和拓扑信息理解效果,这可以看到毫末智行在左拐、直行、等待,以及右转实现的效果。除了红绿灯以外,城市里的车道线远比高速更复杂,毫末智行使用了Transformer来实现对于城区里面复杂车道线的检测功能。因为Transformer这两年发展比较快,包括BEVFormer、HDMapNet等等,学术界提出了很多使用Transformer来理解对于不规则的车道线、模糊的车道线进行处理的方法。
行动自如 决策智能
通过数据,智能汽车可以获得比较好的感知效果,同样也可以通过数据使得规划决策,也就是认知算法得到比较大的提升。现在自动驾驶在高速上开发的比较多,从高速走到城市时,毫末智行发现城市的交通环境比高速上复杂很多,比如说高速上直行就可以,在城市里面要面临着绕障、左右转、超车、并线各种复杂场景。传统的方法会写大量的规则来约束车辆,这在复杂的交通环境下会让规则变得更加臃肿,很难找到通用的解法。
为此,毫末智行主要是通过数据和模型学习来替代掉规则,来解决复杂场景通过性的问题。毫末智行将所有的规则提炼为深度的学习模型,深度神经网络。用大量的用户真实驾驶数据,放到模型里,通过模仿学习,智能汽车可以能够训练出来一个模型。实现同样的场景下模仿人类的驾驶行为。
在这个过程中,自然而然就涉及到如何处理和理解真实数据,这些数据对认知来说,数据噪声很多,而且它的数据并不像感知客观,需要进行很强的理解和标注。在这个过程中毫末智行和阿里达摩院合作,使用了阿里M6大模型,这个模型最早使用在中文NLP预训练大模型,通过M6可以对毫末智行的数据进行可解释性的标注。
毫末智行通过预训练大模型,可以更好理解交通参与者的意图,MANA可以清洗掉一些不需要的数据,比如说驾驶员的闯红灯、超速等不规范的驾驶行为数据,另外毫末智行可以对于数据的场景进行有效的划分,保证最终车端模型的收敛。
标注成本永远是AI领域里面绕不过去的话题,毫末智行每年的标注量非常巨大,毫末智行搭建了整个一套数据自动化标注系统。以点云为例,点云数据标注是非常昂贵的,所有的点云数据会在时序空间进行处理,在时序空间上毫末智行会对点云进行加密和稠密化操作。经过稠密化的点云毫末智行会对它进行3D目标检测和特征的提取,再通过动静的区分,会把它区分为静态障碍物和动态障碍物,对于静态障碍物和动态障碍物分别再使用不同的尺寸优化模型,以及3D的估计模型,会对整个数据进行比较精确的全自动化的标注。
在这个过程中,毫末智行会充分利用整个数据时空上的连续性和毫末智行多视角的一致性等特征,对整个标注的结果进行精度的保障。通过这些手段可以将整个标注的成本下降在90%左右,另外训练也是人工智能领域里面非常重要的成本组成,在训练这块毫末主要是和阿里云的团队进行了深度的合作。
目前毫末智行在整个训练集群上,可以实现较高效率的并行训练。比如近两亿参数的模型,毫末智行在使用14000万数据量的情况下,可以做到较高的吞吐量,整体的训练成本会下降62%左右,加速比在96%左右,整体会带来成本的大幅下降,毫末智行在数据使用上高度重视用户的隐私保护,对于人脸、车牌等关键信息,也进行了隐私化的处理。
新品上市 拓宽边界
毫末智行即将上市的HPilot 3.0是基于高通的8540+9000硬件,单板算力360T,是当前量产算力最高的一款硬件,整个产品有12个摄像头,2个激光雷达,5个毫米波雷达,12个超声波传感器,也是中国首个大规模量产的城市辅助自动驾驶系统。HPilot 3.0是一个重感知的城市辅助驾驶系统,它可以在全国一百多个城市进行辅助驾驶,也可以在高速、开放道路、城市快速路、停车场实现辅助驾驶,未来将搭载在长城各类主力车型上。
为什么毫末智行一直在强调城市自动驾驶,包括感知、认知,包括数据的处理,其实都是为了城市场景而准备的,因为城市场景是目前自动驾驶的主战场,在高速上大家都能实现不错的效果,但未来用户还有更大的需求痛点,以及自动驾驶的主战场,毫末智行认为其将在城市场景中展开。城市场景极其复杂,全国城市道路总共1000万公里,而高速只有15万公里,全国的路口有40万个,红绿灯有136万个,且城市场景中拥堵工况更多,是用户出行主要耗时的场景。
针对红绿灯控车、路口转向、路口博弈、待转区通行、环岛通行、导航变道、街道绕障、拥堵变道等城市场景,毫末智行都针对感知、认知所需要的技术能力进行了重点的攻关。此外,毫末智行也希望在城市场景中能定义出大家共同的理论思考,比如行驶环境中,毫末智行定义了畅通场景、缓行场景、拥堵场景,不同的行驶模式。
毫末智行希望通过不同场景的处理,带给用户不同的使用体验,最优化用户个性化出行需求。毫末智行在没有高精地图的情况下,依靠重感知能力,即可以实现目前70%的路口通过率和90%变道成功率,以及交通流的处理能力。
自动驾驶还是一个朝阳产业,毫末智行希望给时光以生命,给岁月以文明,也希望通过毫末人的努力,共同为这个行业添砖加瓦。