通过点对点蒸馏实现鲁棒的领域随机增强学习
本文提出了一种基于风险规避的探索策略,使用分布式鲁棒策略迭代方案来确保学习过程中的安全,并在连续状态/操作空间中扩展了此方法,得出了分布式鲁棒软演员-批评家算法的实用算法。
Feb, 2019
通过提出一种正则化方法,使得智能体在训练时只基于一个环境的变体进行训练,并在训练过程中对其学习到的状态表示进行正则化,以实现对不同领域的不变性,该方法比标准的域随机化技术更有效和鲁棒,并能实现相同的泛化分数。
Oct, 2019
本研究基于随机梯度 langevin 动力学引入了一种采样视角来训练机器人学习代理,构建了一种新型、可扩展的两个玩家机器人学习算法,并在多个 MuJoCo 环境中证明了该算法相对于传统机器人学习算法更具有一般化能力。
Feb, 2020
我们提出了一种简单、实用和直观的强化学习领域自适应方法,通过修改奖励函数,使用辅助分类器来区分源域和目标域,对源域中不可能出现的状态进行惩罚,适用于连续状态和动作的域,可扩展至高维任务。
Jun, 2020
本文介绍了一种多演示者离线强化学习算法,该算法能够自然地解决不同演示者产生不同数据分布的问题,并提出了一种基于 Risk Extrapolation 的领域不变模型离线强化学习方法,结果表明,该方法能够提高领域泛化性能,可以改善策略学习过程的稳定性,并可以潜在地实现探索增强。
Nov, 2022
通过对RMDPs中的敌对核进行特征化,我们提出了一种新颖的在线鲁棒RL方法,该方法近似敌对核并使用标准的(非鲁棒)RL算法来学习鲁棒策略。特别是,该方法可应用于任何基础RL算法之上,可以轻松扩展到高维领域。在经典控制任务,MinAtar和DeepMind Control Suite中的实验表明了我们方法的有效性和适用性。
Jun, 2023
离线强化学习中的分布偏移问题可以通过分布鲁棒学习框架来解决,本文提出了两种使用该框架的离线强化学习算法,并通过模拟实验展示了其优越性能。
Oct, 2023
通过综述方法与开放问题对最近几年来RL的安全和稳健性的相关研究工作进行总结,本文主要关注RL系统在现实场景中的安全性和稳健性挑战,探讨了算法、伦理和实践考虑等方面的主要维度以及如何增强RL代理的安全性和稳健性,同时讨论了环境因素和人的参与等影响因素,最后提出了一个实用的检查清单,以帮助从业者在各个应用领域负责任地部署RL系统。
Mar, 2024
通过交互式数据收集,我们引入消失的最小值假设来解决强化学习中的sim-to-real差距问题,为设计样本高效的算法提供了足够的条件,并伴随着尖锐的样本复杂性分析。
Apr, 2024