?超越人类，自动驾驶中的深度强化学习

日期：2022-03-29 来源：[db:来源] 作者：汽车网联系电话：浏览：535

核心提示：2022年02月17日关于?超越人类，自动驾驶中的深度强化学习的最新消息：本文来源：智车科技／导读／深度强化学习对于现阶段的科技工作者来说可能并不陌生，作为21世纪最为前沿领先的技术之一，深度强化学习早已在多个领域发挥了其不可替代的作用。例如前几年大

本文来源：智车科技

／导读／

深度强化学习对于现阶段的科技工作者来说可能并不陌生，作为21世纪最为前沿领先的技术之一，深度强化学习早已在多个领域发挥了其不可替代的作用。例如前几年大火的AlphaGo战胜了一众围棋世界冠军，又比如游戏界DeepMind 研发的 AlphaStar 在《星际争霸2》中一战封神等等，火热的强人工智能加速了人们对于未来科技飞速发展的信心，而基于强化学习的方法更让人们看到了人工智能超越人类知识的可能。

如此前沿的技术必然在前沿的领域发挥举足轻重的作用，在自动驾驶领域，深度强化学习已然走出了自己特有的道路，并吸引一位又一位研究人员、企业对其展开探索，试图将这一人类能完成的最高智慧应用于未来的日常出行中。本篇文章就带领读者了解深度强化学习这个领域，并一窥这一前沿理论是如何应用在自动驾驶行业中的，未来又将带给我们怎样的惊喜。

1

什么是深度强化学习？

对于不太了解人工智能的小白来说，对深度强化学习这一名词的概念可能比较陌生，正式的定义为深度强化学习是将深度学习的感知能力和强化学习的决策能力相结合，可以直接根据输入的图像进行控制，是一种更接近人类思维方式的人工智能方法。

而作为两大学习方法的叠加，深度强化学习包含了两种方法的特征与优势。深度学习具有较强的感知能力，但是缺乏一定的决策能力；而强化学习具有决策能力，对感知问题束手无策。因此，将两者结合起来，优势互补，为复杂系统的感知决策问题提供了解决思路。更进一步来说，强化学习是一种典型的序贯决策方式，智能体通过与环境的交互获得反馈，在尝试和试错中不断进步。而深度强化学习综合了深度学习对高维数据的抽象感知能力与强化学习优秀的决策能力，能够处理更高维度的输入与输出数据。

近年来，深度强化学习算法已在许多领域都取得了令人震撼的成就。2016年，基于深度 Q 网络（Deep Q Network，DQN）和蒙特卡洛树搜索算法的围棋程序“AlphaGo”以4：1战胜世界冠军李世乭，轰动了世界，使得深度强化学习成为了人工智能领域研究的新风向。

随后，Lillicrap 等学者提出了直接优化策略的深度确定性策略梯度（Deep Deterministic Policy Gradient，DDPG）算法，而非通过比较状态动作值函数的方式进行动作选择，从而避免了连续动作空间离散化的“维数灾难”，将深度强化学习算法可应对的场景拓展至连续动作空间中。为了实现工程中的轻量级应用，Mnih等提出了异步强化学习（Asynchronous Reinforcement Learning，ARL）框架，可以使用异步的梯度下降法来优化网络参数。

近些年来深度强化学习算法取得的令人振奋的成果鼓励了工业界和学术界进一步深入研究深度强化学习算法及其应用。近年来学者们将深度强化学习算法应用在机器人控制、楼宇空调系统控制、匝道控制等领域中，在汽车和智能交通等领域，深度强化学习也在车道保持、超车决策、主动制动、能量管理、交通流调度等方面得到了应用。

打赏

更多>相关资讯

最新发布

推荐资讯

点击排行

联系电话: 微信：

• 6月新能源汽车销量排名：前三垄断前十，宏光MIN	• 传祺GS4 MAX重回10万元区间，燃油动力SUV成最具
• 2.0T9AT，四驱，标配7座！看看这些可靠的家庭	• 不要随意购买丰田汽车。这4款车型被公认为品质
• 20万级燃油SUV哪款最好？高性价比推荐	• 想买低价宜家燃油动力中型车？我推荐：帕萨特去
• CDX中国拯救讴歌，却是日本这十款畅销车！ \|	• 2018上半年汽车销量前十名：大众品牌仍是最大赢
• 2018年1月至6月轿车销量前10名排行榜中，大众占	• 2021年总销量前十名的汽车有哪些？