显式利普希茨值估计增强策略对扰动的稳健性

Apr, 2024

显式利普希茨值估计增强策略对扰动的稳健性

Explicit Lipschitz Value Estimation Enhances Policy Robustness Against Perturbation

Xulin Chen, Ruipeng Liu, Garrett E. Katz

TL;DR在机器人控制任务中，强化学习（RL）在模拟中训练的策略在部署到物理硬件上时常常出现性能下降的问题，本文研究了通过利普希茨正则化来改善近似值函数的梯度条件，从而提高训练后的鲁棒性。通过将利普希茨正则化与快速梯度符号方法相结合，我们的实验结果表明了这种方法在一些连续控制基准测试中的优势。

Abstract

In robotic control tasks, policies trained by reinforcement learning (RL) in simulation often experience a performance drop when deployed on physical hardware, due to modeling error, measurement error, and unpredictable perturbations in the real world. →

reinforcement learning robust rl lipschitz regularization value function approximation errors

发现论文，激发创造

模型驱动增强学习中的 Lipschitz 连续性

本文研究了 Lipschitz 连续模型在基于模型的强化学习中的影响。我们提供了一个新的多步预测误差界限，用 Wasserstein 度量来量化误差。我们证明了 Lipschitz 模型所引起的价值函数估计误差界限，并表明估计值函数本身是 Lipschitz 的。最后，我们提供了实证结果，表明控制神经网络模型的 Lipschitz 常数的好处。

Apr, 2018

使用通用价值函数逼近进行强化学习中的随机探索

提出了一种无模型强化学习算法，由于乐观原则和最小二乘价值迭代算法的启示，通过简单地使用谨慎选择的独立同分布的标量噪声扰乱训练数据来推动探索，在估计乐观值函数的同时引入了一种乐观的奖励采样过程，并证明了当数值函数可由函数类 \mathcal {F} 表示时，该算法实现了最坏情况下的遗憾度量边界，并在已知的难度探索任务上进行了实证评估。

Jun, 2021

策略平滑强化学习的奖励认证

本文提出了一种通用的黑盒认证方法，能够在各种 $l_p$ 范数边界扰动下直接认证平滑策略的累积奖励，并扩展了在动作空间上认证扰动的方法。我们利用 f - 分布度量原始分布与扰动分布之间的差异，并通过求解凸优化问题确定认证边界。理论分析和实验结果表明，我们的方法不仅提高了平均累积奖励的认证下界，而且比最先进的技术更高效。

Dec, 2023

深度神经网络的 Lipschitz 正则性：分析与高效估计

本文提出了 AutoLip 和 SeqLip 两种神经网络架构方法的 Lipschitz 常数的自动上界估计算法，并探讨了这种算法在计算大型卷积和顺序神经网络时的使用情况和启发式技巧。我们提供了使用 PyTorch 环境的 AutoLip 实现，可以使用更精确的 Lipschitz 估计来更好地评估神经网络对小扰动的鲁棒性或进行正则化。

May, 2018

一种针对策略梯度的测度导数的实证分析

本文探讨了基于测度值导数的随机梯度估计器及其在 actor-critic 策略梯度设置中的应用，结果显示它在低维和高维动作空间中能够达到与基于似然比或重参数化技巧的方法相当的性能。

Jul, 2021

通过 $l_∞$ 利普希茨策略网络提高强化学习对观测扰动的鲁棒性

我们提出了一种名为 SortRL 的新型鲁棒性强化学习方法，通过网络架构的角度改善 DRL 策略对观测扰动的鲁棒性，并设计了一个训练框架，解决给定任务同时保持对观测的鲁棒性。多个实验表明 SortRL 在不同扰动强度下实现了最先进的鲁棒性能。

Dec, 2023

降低方差强化学习的控制规范化

介绍了一种基于功能正则化方法的强化学习中的高性能方案，可以相对于一个策略先验进行行为的规则化，进而获得偏差 - 方差的平衡来降低高方差的挑战，并通过自适应调整策略先验，保证稳定性和更高的学习效率

May, 2019

Lipschitz 历练强化学习

本文探讨了在面对一系列的强化学习任务时知识传递的问题，提出了一种近似的马尔科夫决策过程的优化值函数的方法，通过此方法实现了个体在面临新任务时的无负面经验的学习。通过实验验证了此方法在延续学习中的效果。

Jan, 2020

连续控制任务中带不确定性集合正则化的鲁棒强化学习

本文提出了一种基于不确定参数空间的不确定性集合正则化器 USR，以提高强化学习在真实世界机器人领域中的鲁棒性和推广性，并在实际测试环境下对其进行评估。

Jul, 2022

模型集成是否必要？通过具有 Lipschitz 正则化值函数的单个模型实现基于模型的强化学习

本论文通过对 Lipschitz 连续性的解释，提供了两种实用的训练机制，通过计算敌对噪声和规范值网络的谱范数来直接规范价值函数的 Lipschitz 条件。实证结果表明，结合我们的机制，具有单个动态模型的基于模型的 RL 算法优于具有概率动态模型集合的算法。

Feb, 2023