自动驾驶奖励（误）设计

Apr, 2021

Reward (Mis)design for Autonomous Driving

W. Bradley Knox, Alessandro Allievi, Holger Banzhaf, Felix Schmitt, Peter Stone

TL;DR本文旨在解决奖励设计过程中常见误区的问题，提出了 8 项简单的方法来鉴别奖励函数的缺陷，并对强化学习中的自动驾驶任务的奖励函数进行了分析，揭示了奖励设计的普遍缺陷。最后，探讨了自适应奖励函数设计的可能方向。

Abstract

This article considers the problem of diagnosing certain common errors in reward design. Its insights are also applicable to the design of cost functions and →

reward design cost functions performance metrics reinforcement learning autonomous driving

发现论文，激发创造

自主驾驶背景下的强化学习奖励函数综述

该论文综述了强化学习在自动驾驶中的应用，讨论了奖励函数的设计挑战、不足之处以及未来可能的研究方向。

Apr, 2024

自主驾驶中的强化学习智能体风险感知奖励塑形

该研究提出了一种基于风险感知的奖励塑形方法，以鼓励探索和惩罚高风险驾驶行为，并在 OpenAI Gym 的模拟研究中表明，风险感知的奖励塑形对于各种强化学习智能体具有优势，同时指出近端策略优化（PPO）是最适合使用风险感知奖励塑形的强化学习方法。

Jun, 2023

反向奖励设计

设计奖励函数的困难性和可能带来的负面影响，本文介绍一种基于上下文推断真实目标的方法，以及应用该方法规避不当奖励导致的风险。实证研究表明，本方法有效减轻了误设奖励函数的负面影响，并减少了奖励欺骗的可能。

Nov, 2017

通过对抗强化学习提高自动驾驶车辆控制的稳健性和安全性

该研究比较了 Robust Adversarial Reinforcement Learning 和 Neural Fictitious Self Play 算法在自动驾驶场景下的性能表现，将学习问题定义为自主系统与环境干扰之间的两人博弈，扩展为半竞争的情况，结果表明对手更好地捕捉了有意义的干扰，从而产生了更好的驾驶效率和减少了与传统强化学习方法相比的碰撞率。

Mar, 2019

无监督感知奖励用于模仿学习

利用深度模型学习中间视觉表示的抽象能力来从少量的演示序列中快速推断知觉奖励函数，以便在真实世界环境中使用强化学习智能体执行任务。

Dec, 2016

学习未规定模型的奖励函数

本研究提出了一种新颖的误差界限，用于解决模型不完美时生成的错误状态如何正确分配奖励值的问题，并在实验中证明其在基于模型的强化学习中的有效性。

Jan, 2018

Driver Dojo: 自主驾驶通用强化学习基准测试

本论文基于可配置、灵活、高性能的代码库，提出了一种挑战性的自动驾驶通用强化学习基准测试方法，该方法使用随机化场景生成器的目录，包括多种不同的道路布局和交通变化机制、不同的数值和视觉观察类型、不同的动作空间、多种车辆模型等。该基准测试旨在鼓励研究人员提出能够成功地推广到各种场景的解决方案，目前的 RL 方法在这项任务中失败。

Jul, 2022

通过奖励函数优化进行行为对齐

通过使用双层目标的新框架，将辅助奖励与环境的主要奖励相结合，我们提供了一种集成设计者指定的启发式方法的鲁棒且有原则的方式，以解决现有方法的主要缺点，即使给出不对齐或指定不良的辅助奖励函数，也能始终导致高性能解决方案。

Oct, 2023

自主驾驶的安全多智能体强化学习

本文介绍了一种利用深度强化学习解决自动驾驶问题的方案，不同于其他机器人任务，自动驾驶需要确保功能安全和在多个智能体情境下执行正确的决策，其中的主要挑战包括如何处理多个智能体的不确定行为，以及如何在 “Desires” 策略和难以控制的路径规划之间实现平衡。

Oct, 2016

主动反向奖励设计

通过与用户交互，选择最能反映真实回报的问题来迭代 AI 代理的奖励函数设计，我们的方法优于 Inverse Reward Design，且可以推断非线性奖励函数，包括可解释的线性奖励函数。

Sep, 2018