短期预测实现长期规划

Feb, 2016

Long-term Planning by Short-term Prediction

Shai Shalev-Shwartz, Nir Ben-Zrihem, Aviad Cohen, Amnon Shashua

TL;DR通过将规划问题分为两个阶段（预测和建模），使用递归神经网络，利用监督学习技术通过对输入节点进行优化来解决长期规划问题，从而在自动驾驶应用中学习鲁棒政策，并纳入敌对因素以优化环境。

Abstract

We consider planning problems, that often arise in autonomous driving applications, in which an agent should decide on immediate actions so as to optimize a long term objective. For example, when a car tries to m

autonomous driving planning supervised learning recurrent neural network adversarial elements

发现论文，激发创造

自主驾驶的安全多智能体强化学习

本文介绍了一种利用深度强化学习解决自动驾驶问题的方案，不同于其他机器人任务，自动驾驶需要确保功能安全和在多个智能体情境下执行正确的决策，其中的主要挑战包括如何处理多个智能体的不确定行为，以及如何在 “Desires” 策略和难以控制的路径规划之间实现平衡。

Oct, 2016

学习抽象世界模型用于值保持规划和选项

通过学习抽象 MDP（Markov 决策过程）来提高智能体在多任务环境中的决策和学习效率。

Jun, 2024

多智能体路径规划中基于长短时记忆的空间编码

本文提出了一个基于强化学习的路径规划方法，可以应用到多经纬系统，通过训练一个连续状态和动作的策略网络，使其具有理想的路径规划行为，该方法通过 LSTM 模块来编码不特定数量的状态，可以扩展到具有无限数量代理和维度的情形，同时使用低成本的硬件平台进行实现。实验表明所提出的方法能成功地使 4 个自主导航的飞行器在现实世界环境中无碰撞地导航。

Mar, 2022

使用深层分层网络生成长期轨迹

本文利用专家示范解决关于建模长时间轨迹的问题，通过提出一种层次化神经网络结构，能够在高维状态空间中，自动识别长短期目标，进而实现不同于传统方法由单一策略为核心，解决了传统方法在涉及长期行为建模上的局限。作者以模拟篮球运动轨迹的案例为例，通过专业体育分析师的判断得出，相较传统基准方法，作者提出的层次化策略能够生成更为真实的轨迹。

Jun, 2017

使用无模型强化学习在密集交通中驾驶

本研究使用深度强化学习来生成一种连续控制规划方案，让自动驾驶汽车在拥挤的道路上实现车道变换，并与基于模型预测控制算法进行对比测试。

Sep, 2019

自主高速公路驾驶的预测决策

本文提出了一种基于预测的深度强化学习决策模型，考虑了周围车辆的操作意图，并使用真实交通数据进行训练。经过模拟测试，结果表明和基于深度强化学习的模型相比，该模型在复杂的高速公路驾驶场景中提高了决策性能，从而减少了碰撞数量，实现了更安全的驾驶。

Sep, 2022

基于目标条件策略的规划

本文提出了一种结合规划方法和强化学习的方法，利用强化学习学习目标驱动策略，从而让规划方法更好地实现任务；同时利用一个潜在变量模型来简洁地表示规划中的有效状态，从而将行为抽象和状态抽象分离。实验结果表明本文提出的方法能够在机器人导航和操作任务中显著优于以往的规划和模型自由方法。

Nov, 2019

结合长期未来的强化学习动力学模型学习

本文着重于构建一个具有考虑长期未来的模型，并展示如何利用它进行有效规划和探索，通过搜寻模型下的不可能轨迹来设计探索策略，并在两种学习环境中取得了比基线更快更高报酬的效果。

Mar, 2019

基于学习预测的自主驾驶交互合并决策

本篇论文提出了一种自动驾驶的决策方法，采用了 POMDP 和 Monte Carlo tree search 等方法对车辆在道路上的交互进行建模和规划，实现了高质量的行驶决策。

Mar, 2023

针对自主驾驶的多模态感知参数化决策

自动驾驶是一项新兴技术，本论文提出了一种基于深度强化学习的参数化决策框架，AUTO，在感知多模态状态特征基础上设计了图形模型来学习多模态语义特征的状态表示，并通过混合奖励函数考虑安全、交通效率、乘客舒适度等因素，以生成最佳行动。通过广泛实验，证明了 AUTO 在宏观和微观效果上领先于现有技术。

Dec, 2023