博弈论的鲁棒强化学习处理时耦合扰动

Jul, 2023

博弈论的鲁棒强化学习处理时耦合扰动

Game-Theoretic Robust Reinforcement Learning Handles Temporally-Coupled Perturbations

Yongyuan Liang, Yanchao Sun, Ruijie Zheng, Xiangyu Liu, Tuomas Sandholm...

TL;DR提出了一个新的挑战，即通过 GRAD 方法将强化学习中的时间上耦合的扰动问题视为部分可观察的两人零和游戏，并通过在该游戏中找到逼近均衡来确保智能体对于时间上耦合的扰动的鲁棒性，实验结果表明，相比于基准方法，在状态空间和动作空间中，所提出的方法在多种连续控制任务上对抗标准攻击和时间上耦合攻击都展现出显著的鲁棒性优势。

Abstract

robust reinforcement learning (RL) seeks to train policies that can perform well under environment perturbations or adversarial attacks. Existing approaches typically assume that the space of possible perturbations remains the same across timesteps. However, in many settings, the space

robust reinforcement learning temporally-coupled perturbations grad game-theoretic approach continuous control tasks

发现论文，激发创造

强韧性对抗性强化学习

提出了一种稳健性的敌对训练 (robust adversarial reinforcement learning, RARL) 方法，该方法将敌对训练与零和极小优化相结合，通过训练一个智能体，使其能够在真实系统上的杂乱因素和不确定性下操作，并在多种环境中进行了验证。

Mar, 2017

时钟受限的鲁棒马尔科夫决策过程

通过引入新的时间约束鲁棒马尔科夫决策过程（TC-RMDP）表达方式，考虑到多因素、相关性和时变干扰，该研究重新审视了鲁棒强化学习中的传统假设，为发展更实际、更真实的强化学习应用开辟了新的路径，同时在时间受限环境下，在保持鲁棒性的同时，取得了性能和鲁棒性之间的高效平衡。

Jun, 2024

打开黑盒子：基于步骤的策略更新用于有时间相关性的情节式强化学习

当前强化学习的研究主要关注于学习基于步骤的策略，而忽略了动作之间的时间相关性，本文介绍了一种新颖的强化学习算法，Temporally-Correlated Episodic RL (TCE)，该算法有效地利用了步骤信息并在参数空间中打开了现有 ERL 方法中的 “黑箱”，同时保持平滑和一致的探索，并在数据效率方面具有类似于最新基于步骤的强化学习方法的性能。

Jan, 2024

通过适应性规则对抗训练实现史塔克伯格博弈的坚韧强化学习

本文介绍了一种用于强化学习的 Stackelberg 游戏模型 ——RRL-Stack，旨在提供额外的鲁棒性训练和解决目前 RL 训练中存在的过度保守智能及训练不稳定等问题，并提出了一种基于 Stackelberg Policy Gradient 算法的解决方案，在单一和多智能体任务中展现更好的训练稳定性和鲁棒性。

Feb, 2022

具有未知时间约束的安全强化学习策略联合学习

提出了一种结合逻辑约束强化学习算法和进化算法的框架，用于在不确定或未明确定义安全约束的环境中并发地学习安全约束和最优 RL 策略，并且该框架以理论保证为支撑，成功地在 grid-world 环境中识别出可接受的安全约束和 RL 策略，以及证明了我们的方法的实践效果。

Apr, 2023

利用压缩更新的时序差分学习：误差反馈与强化学习相遇

本文研究了带有压缩算子的强化学习过程对经典时间差分学习算法的影响，并证明了在误差反馈机制的作用下，以及与线性函数逼近和马尔可夫采样一起使用时，压缩的时间差分算法可以与 SGD 相似地具有非渐近理论保证。此外，本文还扩展了结果，提出了多智能体 TD 学习的线性收敛速度快速提升的证明。

Jan, 2023

具有双重鲁棒性的安全强化学习

提出了一个系统的框架来统一安全强化学习和鲁棒强化学习的问题，包括问题的形式化、迭代方案、收敛性分析和实际算法设计。该框架建立在有约束的两人零和马尔可夫博弈上，提出了一种双重策略迭代方案，同时优化任务策略和安全策略。证明了该迭代方案的收敛性。此外，还设计了一种用于实际实现的深度强化学习算法，称为 DRAC。安全关键的基准评估表明，DRAC 在所有情景下（无对手、安全对手、性能对手）实现了高性能和持续的安全性，并且明显优于所有基准线。

Sep, 2023

时间差异强化学习动力学

本研究使用统计物理学的理论，研究了具有线性函数逼近器的时间差分学习的典型学习曲线。通过对小型马尔可夫决策过程进行验证，发现随机半梯度噪声导致价值误差的显著平台现象，并分析了如何使用学习率退火和奖励塑形等策略促进学习动态和平台的优化。

Jul, 2023

连续强化学习的策略优化

研究了强化学习在连续时间和空间的设置下的应用，提出了购买力占据时间的概念，并进一步将其应用于策略梯度和 TRPO/PPO 方法中。通过数值实验，验证了此方法的有效性和优势。

May, 2023

实时循环强化学习

我们提出了一种新颖的强化学习算法，名为实时循环强化学习 (RTRRL)，通过利用随机反馈局部在线学习 (RFLO) 近似实时递归学习 (RTRL) 来计算循环神经网络参数的梯度，并结合具有资格迹的时序差分强化学习 (TD (λ))，能在部分可观测马尔可夫决策过程 (POMDPs) 中解决离散和连续控制任务，达到生物可行并超越了传统的时间反向传播算法 (BPTT)。该方法模拟哺乳动物大脑奖励途径的生物神经网络进行学习。

Nov, 2023