时钟受限的鲁棒马尔科夫决策过程
本文提出 RSVF 解决了传统 RO-MDP 方法计算策略过于保守的问题,该方法使用贝叶斯先验、优化模糊度集的大小和位置,并放宽了置信区间的要求,同时保证了安全性和实际应用价值。
Nov, 2018
本文介绍了一个基于Constrained Markov Decision Process(CMDP)和Robust Markov Decision Process(RMDP)的框架,即Robust Constrained-MDPs(RCMDP),用于设计强大而稳健的强化学习算法,并提供相应的约束满足保证。同时,还将这个框架用于从模拟到真实世界的政策转移中,以实现对模型不确定性的强鲁棒性和安全保障。最后,我们在库存管理问题上验证了这个框架的有效性。
Oct, 2020
本文提出了一种基于样本的方法来估计未知的不确定性集并设计了一种鲁棒Q学习算法和鲁棒TDC算法,可以在线上和增量的情况下实现,在不需要收敛性保证的情况下证明了 Q 学习算法收敛到最优的鲁棒Q函数,并证明了 TDC 算法渐近收敛到一些稳定点,在数值实验中进一步验证了算法的鲁棒性。
Sep, 2021
介绍了一种新的不确定性集合并基于此提出了一种名为ARQ-Learning的鲁棒强化学习方法,同时还提出一种能高效解决ARQ-Learning在大规模或连续状态空间下的问题的技术,最终将其应用于各种存在模型不确定性的强化学习应用中。
May, 2023
研究强化学习中模型鲁棒性以减少实践中的模拟与实际之间的差距,采用分布鲁棒马尔可夫决策过程的框架,在规定的不确定性集合范围内学习最优性能策略,对于不同的不确定性集合,分别用基于模型的方法分析分布鲁棒价值迭代的采样复杂性,结果表明分布鲁棒马尔可夫决策过程并不一定比标准马尔可夫决策过程更易或更难学习,而是依赖于不确定性集合的大小和形状。
May, 2023
通过对RMDPs中的敌对核进行特征化,我们提出了一种新颖的在线鲁棒RL方法,该方法近似敌对核并使用标准的(非鲁棒)RL算法来学习鲁棒策略。特别是,该方法可应用于任何基础RL算法之上,可以轻松扩展到高维领域。在经典控制任务,MinAtar和DeepMind Control Suite中的实验表明了我们方法的有效性和适用性。
Jun, 2023
通过交互式数据收集,我们引入消失的最小值假设来解决强化学习中的sim-to-real差距问题,为设计样本高效的算法提供了足够的条件,并伴随着尖锐的样本复杂性分析。
Apr, 2024
我们引入了RRLS(Robust Reinforcement Learning Suite),这是一款基于Mujoco环境的基准套件,为训练和评估提供了六个连续控制任务,旨在标准化强化学习任务,促进可重现和可比较的实验,并为最新的最先进贡献提供使用实例。
Jun, 2024
应用鲁棒MDPs框架及引入一种新型的学习过渡模型,该研究在模型为基础的环境中通过辅助悲观模型来提高策略的鲁棒性,并在实验中展示了该模型在失真MDPs中提高学习策略性能的显著改进。
Jun, 2024