Mar, 2024

深度强化学习自动驾驶决策的揭秘

TL;DR自适应驾驶决策中,深度强化学习模型的黑盒特性限制了实际应用,因此本研究工作关注一种基于注意力机制的可解释深度强化学习框架,并使用连续近端策略优化算法作为基准模型,在开源自适应驾驶仿真环境中加入了多头注意力机制。通过分析技术讨论模型的可解释性和因果关系,发现模型的第一个头部编码了邻近车辆的位置,而第二个头部则专注于领导车辆。此外,自车的动作在时空上受到目标车道上车辆的因果依赖。这些发现可帮助从业人员解读深度强化学习算法的结果。