显式利普希茨值估计增强策略对扰动的稳健性
本文研究了 Lipschitz 连续模型在基于模型的强化学习中的影响。我们提供了一个新的多步预测误差界限,用 Wasserstein 度量来量化误差。我们证明了 Lipschitz 模型所引起的价值函数估计误差界限,并表明估计值函数本身是 Lipschitz 的。最后,我们提供了实证结果,表明控制神经网络模型的 Lipschitz 常数的好处。
Apr, 2018
提出了一种无模型强化学习算法,由于乐观原则和最小二乘价值迭代算法的启示,通过简单地使用谨慎选择的独立同分布的标量噪声扰乱训练数据来推动探索,在估计乐观值函数的同时引入了一种乐观的奖励采样过程,并证明了当数值函数可由函数类 \mathcal {F} 表示时,该算法实现了最坏情况下的遗憾度量边界,并在已知的难度探索任务上进行了实证评估。
Jun, 2021
本文提出了一种通用的黑盒认证方法,能够在各种 $l_p$ 范数边界扰动下直接认证平滑策略的累积奖励,并扩展了在动作空间上认证扰动的方法。我们利用 f - 分布度量原始分布与扰动分布之间的差异,并通过求解凸优化问题确定认证边界。理论分析和实验结果表明,我们的方法不仅提高了平均累积奖励的认证下界,而且比最先进的技术更高效。
Dec, 2023
本文提出了 AutoLip 和 SeqLip 两种神经网络架构方法的 Lipschitz 常数的自动上界估计算法,并探讨了这种算法在计算大型卷积和顺序神经网络时的使用情况和启发式技巧。我们提供了使用 PyTorch 环境的 AutoLip 实现,可以使用更精确的 Lipschitz 估计来更好地评估神经网络对小扰动的鲁棒性或进行正则化。
May, 2018
本文探讨了基于测度值导数的随机梯度估计器及其在 actor-critic 策略梯度设置中的应用,结果显示它在低维和高维动作空间中能够达到与基于似然比或重参数化技巧的方法相当的性能。
Jul, 2021
我们提出了一种名为 SortRL 的新型鲁棒性强化学习方法,通过网络架构的角度改善 DRL 策略对观测扰动的鲁棒性,并设计了一个训练框架,解决给定任务同时保持对观测的鲁棒性。多个实验表明 SortRL 在不同扰动强度下实现了最先进的鲁棒性能。
Dec, 2023
介绍了一种基于功能正则化方法的强化学习中的高性能方案,可以相对于一个策略先验进行行为的规则化,进而获得偏差 - 方差的平衡来降低高方差的挑战,并通过自适应调整策略先验,保证稳定性和更高的学习效率
May, 2019
本文探讨了在面对一系列的强化学习任务时知识传递的问题,提出了一种近似的马尔科夫决策过程的优化值函数的方法,通过此方法实现了个体在面临新任务时的无负面经验的学习。通过实验验证了此方法在延续学习中的效果。
Jan, 2020
本文提出了一种基于不确定参数空间的不确定性集合正则化器 USR,以提高强化学习在真实世界机器人领域中的鲁棒性和推广性,并在实际测试环境下对其进行评估。
Jul, 2022
本论文通过对 Lipschitz 连续性的解释,提供了两种实用的训练机制,通过计算敌对噪声和规范值网络的谱范数来直接规范价值函数的 Lipschitz 条件。实证结果表明,结合我们的机制,具有单个动态模型的基于模型的 RL 算法优于具有概率动态模型集合的算法。
Feb, 2023