通过奖励塑造在强化学习中保证控制需求

Nov, 2023

通过奖励塑造在强化学习中保证控制需求

Guaranteeing Control Requirements via Reward Shaping in Reinforcement Learning

Francesco De Lellis, Marco Coraggio, Giovanni Russo, Mirco Musolesi, Mario di Bernardo

TL;DR在满足控制问题中的规范和追踪要求的过程中，需要通过强化学习来保证所获得的策略在部署之前能够满足必要的性能和稳定性准则，如期望的调整时间和稳态误差。基于这种必要性，本文提出了一组结果和系统奖励设计过程，可以确保最优策略生成的轨迹与指定的控制要求相一致，并且可以评估任何给定的策略是否满足这些要求。我们通过在 OpenAI Gym 的两个代表性环境 —— 倒立摆摆动问题和月球着陆器问题中进行了全面的数值实验来验证我们的方法。通过使用表格和深度强化学习方法，我们的实验一致证明了我们提出的框架的有效性，突出了其确保策略符合所规定的控制要求的能力。

Abstract

In addressing control problems such as regulation and tracking through reinforcement learning, it is often required to guarantee that the acquired policy meets essential performance and stability criteria such as

reinforcement learning control problems settling time steady-state error reward shaping

发现论文，激发创造

学习如何利用成形奖励：一种新的奖励成形方法

本文提出了一种自适应利用给定塑形奖励函数的算法，通过将塑形奖励作为一个双层优化问题来解决，从而实现了真实奖励的最大化，并基于这个问题，提出了三种基于不同假设的学习算法。实验结果表明，我们的算法可以充分利用有益的塑形奖励，同时忽略无益的塑形奖励或者甚至将它们转化为有益的。

Nov, 2020

基于时序逻辑奖励塑形的强化学习分布式控制

本文提出了一个基于计算框架的分布式控制策略合成方法，用于处理存在部分观测的异质机器人团队，旨在满足 Truncated Linear Temporal Logic（TLTL）规范，其方法将综合问题表述为一个随机博弈，并采用策略图方法为每个机器人寻找具有内存的控制策略，模拟结果表明其解决方案的有效性和奖励塑形的有效性。

Mar, 2022

使用策略和奖励塑形的无人机控制强化学习

本研究采用奖赏塑形和策略塑形技术同时训练 RL 智能体，以控制无人机；结果表明，与仅使用基于策略的方法训练智能体相比，使用两种技术同时训练的智能体获得了较低的回报，但训练期间达到了更低的执行时间和更少的离散度。

Dec, 2022

受限马尔科夫决策过程中的安全策略改进

该研究提出了一种解决增强学习自动合成策略的算法，该算法通过解决奖励形状设计和安全策略更新等挑战来实现，同时使用基于模型的 RL 算法来有效地利用我们收集的数据，并在标准控制基准中展示了其有效性和鲁棒性。

Oct, 2022

稳定性认证强化学习：控制理论视角

论文研究了通过调节策略的输入输出梯度，可以基于可行性半定规划问题获得健壮稳定性的保证，并通过应用于两个去中心化控制任务，证明强化学习代理可以在稳定控制参数空间中具有高性能和长期稳定的学习行为。

Oct, 2018

解析奖励塑造：理解奖励工程对样本复杂性的益处

本文阐述了在强化学习中选择适当的奖励设计方法对提高学习效率的重要性，并提出了一种将奖励设计融入强化学习框架的方案，并通过基于奖励设计所得到的样本效率的提高，证明了该方案在实践中的有效性。

Oct, 2022

具有稳定性保证的安全基于模型的强化学习

该论文提出了一种考虑安全性的学习算法，利用 Lyapunov 稳定性检验的控制理论结果和动力学统计模型，得到具备可证明稳定性证书的高性能控制策略，并通过高斯过程先验进一步保证数据安全性和提高控制性能。在反演摆模拟实验中表现出安全性高、控制性能良好的特点。

May, 2017

自主驾驶中的强化学习智能体风险感知奖励塑形

该研究提出了一种基于风险感知的奖励塑形方法，以鼓励探索和惩罚高风险驾驶行为，并在 OpenAI Gym 的模拟研究中表明，风险感知的奖励塑形对于各种强化学习智能体具有优势，同时指出近端策略优化（PPO）是最适合使用风险感知奖励塑形的强化学习方法。

Jun, 2023

实时策略游戏中的奖励塑造以提高学习能力

我们研究了奖励塑型在实时策略的夺旗游戏中提高强化学习性能的效果，并证明适当设计的奖励塑型函数能显著提高玩家的性能和训练时间。

Nov, 2023

朝着计算高效的逆强化学习方向进发：通过奖励塑形

逆向强化学习是具有计算挑战性的，常见方法需要解决多个强化学习子问题。本研究激励使用基于潜力的奖励塑造来减轻每个强化学习子问题的计算负担，并希望能激发未来对计算效率高的逆向强化学习的发展。

Dec, 2023