超越置信区间: 坚实的贝叶斯不确定性集合用于强韧MDPs
本文提出 RSVF 解决了传统 RO-MDP 方法计算策略过于保守的问题,该方法使用贝叶斯先验、优化模糊度集的大小和位置,并放宽了置信区间的要求,同时保证了安全性和实际应用价值。
Nov, 2018
本文介绍了一个基于Constrained Markov Decision Process(CMDP)和Robust Markov Decision Process(RMDP)的框架,即Robust Constrained-MDPs(RCMDP),用于设计强大而稳健的强化学习算法,并提供相应的约束满足保证。同时,还将这个框架用于从模拟到真实世界的政策转移中,以实现对模型不确定性的强鲁棒性和安全保障。最后,我们在库存管理问题上验证了这个框架的有效性。
Oct, 2020
在强化学习中,针对数据量有限的情况,提出了一种基于不确定性管理技术的深度策略优化方法,可以生成稳健的策略更新,适应学习过程中的不确定性水平。
Dec, 2020
本文介绍了一种鲁棒的任意学习方法,该方法结合了贝叶斯推断模型和计算稳健策略的方法,以不确定性马尔科夫决策过程(uMDPs)为基础,并通过实验验证了该方法的有效性。
May, 2022
研究强化学习中模型鲁棒性以减少实践中的模拟与实际之间的差距,采用分布鲁棒马尔可夫决策过程的框架,在规定的不确定性集合范围内学习最优性能策略,对于不同的不确定性集合,分别用基于模型的方法分析分布鲁棒价值迭代的采样复杂性,结果表明分布鲁棒马尔可夫决策过程并不一定比标准马尔可夫决策过程更易或更难学习,而是依赖于不确定性集合的大小和形状。
May, 2023
通过对低秩马尔科夫决策过程的特征和因子向量引入双重扰动鲁棒性的全新方法,解决了目前强化学习研究中存在的效率问题,提供了在具有大规模甚至连续状态-动作空间的实际问题中应用的可靠MDP算法以及理论收敛性保证。
Apr, 2024
使用固定过渡概率的标准马尔科夫决策过程(MDPs)的替代方案,鲁棒马尔科夫决策过程(RMDPs)在不确定性集合中优化最坏情况下的结果。本文研究了在RMDP下基于CVaR的风险敏感强化学习的鲁棒性,分析了预先设定的不确定性集合和状态动作相关的不确定性集合,提出了风险度量NCVaR和相应的优化方法,并通过仿真实验验证了该方法的有效性。
May, 2024
通过引入新的时间约束鲁棒马尔科夫决策过程(TC-RMDP)表达方式,考虑到多因素、相关性和时变干扰,该研究重新审视了鲁棒强化学习中的传统假设,为发展更实际、更真实的强化学习应用开辟了新的路径,同时在时间受限环境下,在保持鲁棒性的同时,取得了性能和鲁棒性之间的高效平衡。
Jun, 2024
本研究解决了在过渡概率未知分布的随机环境中学习马尔可夫决策过程(MDP)政策的挑战。提出了一种数据驱动的方法,通过构建区间MDP的模型近似,以合成在采样环境下表现良好的单一政策,并提供了在未知新环境中仍能满足性能要求的保障。研究结果展示了所提方法在多种基准测试中的高性能和鲁棒性,并量化了其相关风险。
Aug, 2024