自动驾驶奖励(误)设计
该研究提出了一种基于风险感知的奖励塑形方法,以鼓励探索和惩罚高风险驾驶行为,并在 OpenAI Gym 的模拟研究中表明,风险感知的奖励塑形对于各种强化学习智能体具有优势,同时指出近端策略优化(PPO)是最适合使用风险感知奖励塑形的强化学习方法。
Jun, 2023
设计奖励函数的困难性和可能带来的负面影响,本文介绍一种基于上下文推断真实目标的方法,以及应用该方法规避不当奖励导致的风险。实证研究表明,本方法有效减轻了误设奖励函数的负面影响,并减少了奖励欺骗的可能。
Nov, 2017
该研究比较了 Robust Adversarial Reinforcement Learning 和 Neural Fictitious Self Play 算法在自动驾驶场景下的性能表现,将学习问题定义为自主系统与环境干扰之间的两人博弈,扩展为半竞争的情况,结果表明对手更好地捕捉了有意义的干扰,从而产生了更好的驾驶效率和减少了与传统强化学习方法相比的碰撞率。
Mar, 2019
本论文基于可配置、灵活、高性能的代码库,提出了一种挑战性的自动驾驶通用强化学习基准测试方法,该方法使用随机化场景生成器的目录,包括多种不同的道路布局和交通变化机制、不同的数值和视觉观察类型、不同的动作空间、多种车辆模型等。该基准测试旨在鼓励研究人员提出能够成功地推广到各种场景的解决方案,目前的 RL 方法在这项任务中失败。
Jul, 2022
通过使用双层目标的新框架,将辅助奖励与环境的主要奖励相结合,我们提供了一种集成设计者指定的启发式方法的鲁棒且有原则的方式,以解决现有方法的主要缺点,即使给出不对齐或指定不良的辅助奖励函数,也能始终导致高性能解决方案。
Oct, 2023
本文介绍了一种利用深度强化学习解决自动驾驶问题的方案,不同于其他机器人任务,自动驾驶需要确保功能安全和在多个智能体情境下执行正确的决策,其中的主要挑战包括如何处理多个智能体的不确定行为,以及如何在 “Desires” 策略和难以控制的路径规划之间实现平衡。
Oct, 2016
通过与用户交互,选择最能反映真实回报的问题来迭代 AI 代理的奖励函数设计,我们的方法优于 Inverse Reward Design,且可以推断非线性奖励函数,包括可解释的线性奖励函数。
Sep, 2018