连续控制任务中带不确定性集合正则化的鲁棒强化学习
介绍了一种基于功能正则化方法的强化学习中的高性能方案,可以相对于一个策略先验进行行为的规则化,进而获得偏差 - 方差的平衡来降低高方差的挑战,并通过自适应调整策略先验,保证稳定性和更高的学习效率
May, 2019
本文提出了一种名为逆方差强化学习的贝叶斯框架,结合概率一致集和批次逆方差加权,采用两种互补的不确定性估计方法来更好地缓解深强化学习中嘈杂监督的负面影响,从而显著提高了离散和连续控制任务的样本效率。
Jan, 2022
本文提出了一个更加通用的解决方案来解决强化学习中的鲁棒性问题,设计了一种算法,该算法结合了系统识别和鲁棒强化学习的优点,解决在不同情况下的不确定性问题,并在多个控制任务中获得了比之前方法更好的最坏情况执行性能。
Feb, 2022
提出了新的 Deep RL 框架 $ extbf {SR}^2 extbf {L}$,通过引入 smoothness-induced regularization,使学习到的 policy 对连续状态空间的过渡 smooth,提高抗扰动能力和样本效率。在 TRPO 和 DDPG 上实验表明,该方法取得了效果的提升。
Mar, 2020
本文介绍了一种新的基于神经网络的连续学习算法 UCL,该算法通过引入新的 Kullback-Leibler 散度项解决了正则化方法的两个主要问题,并在监督学习任务和强化学习任务中表现出超过最新技术的优异性能。
May, 2019
强化学习是控制动态系统的强大方法,但其学习机制可能导致不可预测的行为,从而损害关键系统的安全性。本文中,我们提出了一种具有自适应控制正则化的强化学习方法(RL-ACR),通过将强化学习策略与控制正则化器结合起来,确保强化学习的安全性,并对预测的系统行为应用安全约束。我们使用可学习的 “聚焦” 权重来实现适应性,该权重通过训练来最大化策略组合的累积奖励。随着离策略学习中强化学习策略的改进,聚焦权重改进了初始亚最优策略,逐渐更多地依赖强化学习策略。我们在关键医疗控制应用中展示了 RL-ACR 的有效性,并进一步研究了其在四个经典控制环境中的性能。
Apr, 2024
本文提出了一种基于样本的方法来估计未知的不确定性集并设计了一种鲁棒 Q 学习算法和鲁棒 TDC 算法,可以在线上和增量的情况下实现,在不需要收敛性保证的情况下证明了 Q 学习算法收敛到最优的鲁棒 Q 函数,并证明了 TDC 算法渐近收敛到一些稳定点,在数值实验中进一步验证了算法的鲁棒性。
Sep, 2021
在机器人控制任务中,强化学习(RL)在模拟中训练的策略在部署到物理硬件上时常常出现性能下降的问题,本文研究了通过利普希茨正则化来改善近似值函数的梯度条件,从而提高训练后的鲁棒性。通过将利普希茨正则化与快速梯度符号方法相结合,我们的实验结果表明了这种方法在一些连续控制基准测试中的优势。
Apr, 2024