稳健MDP的严格贝叶斯模糊集
通过采用贝叶斯推断优化模糊集的大小和位置,提出了一种新范式,无需使用置信区间作为模糊集,可在保证健壮性的同时获得更好的解,基于理论分析和实证结果表明其安全性和实用性。
Feb, 2019
本文探讨了在考虑转移概率不确定性时,如何高效地解决具有s-和sa-矩形模糊集定义的鲁棒MDP问题,并提出了一种新的策略迭代方案和快速计算鲁棒Bellman算子的方法。实验结果表明,这些方法比使用线性规划求解器结合鲁棒值迭代的现有方法快得多。
Jun, 2020
本文介绍了一个基于Constrained Markov Decision Process(CMDP)和Robust Markov Decision Process(RMDP)的框架,即Robust Constrained-MDPs(RCMDP),用于设计强大而稳健的强化学习算法,并提供相应的约束满足保证。同时,还将这个框架用于从模拟到真实世界的政策转移中,以实现对模型不确定性的强鲁棒性和安全保障。最后,我们在库存管理问题上验证了这个框架的有效性。
Oct, 2020
本文介绍了一种鲁棒的任意学习方法,该方法结合了贝叶斯推断模型和计算稳健策略的方法,以不确定性马尔科夫决策过程(uMDPs)为基础,并通过实验验证了该方法的有效性。
May, 2022
我们采用政策优化观点对具有s-矩形不确定性集的鲁棒马尔可夫决策过程进行政策评估。所开发的方法被称为一阶政策评估(FRPE),为确定性(离线)和随机(在线)设置下的鲁棒政策评估提供了第一种统一框架,无论是表格表示还是通用函数逼近。具体而言,我们在确定性设置中建立了线性收敛性,并在随机设置中具有O(1/ε^2)的抽样复杂度。FRPE还自然地推广到具有(s, a)-矩形不确定性集的鲁棒状态-动作值函数的评估。我们讨论了将所开发结果应用于大规模鲁棒MDP的随机政策优化。
Jul, 2023
通过对低秩马尔科夫决策过程的特征和因子向量引入双重扰动鲁棒性的全新方法,解决了目前强化学习研究中存在的效率问题,提供了在具有大规模甚至连续状态-动作空间的实际问题中应用的可靠MDP算法以及理论收敛性保证。
Apr, 2024
使用固定过渡概率的标准马尔科夫决策过程(MDPs)的替代方案,鲁棒马尔科夫决策过程(RMDPs)在不确定性集合中优化最坏情况下的结果。本文研究了在RMDP下基于CVaR的风险敏感强化学习的鲁棒性,分析了预先设定的不确定性集合和状态动作相关的不确定性集合,提出了风险度量NCVaR和相应的优化方法,并通过仿真实验验证了该方法的有效性。
May, 2024
通过引入新的时间约束鲁棒马尔科夫决策过程(TC-RMDP)表达方式,考虑到多因素、相关性和时变干扰,该研究重新审视了鲁棒强化学习中的传统假设,为发展更实际、更真实的强化学习应用开辟了新的路径,同时在时间受限环境下,在保持鲁棒性的同时,取得了性能和鲁棒性之间的高效平衡。
Jun, 2024
本研究解决了在过渡概率未知分布的随机环境中学习马尔可夫决策过程(MDP)政策的挑战。提出了一种数据驱动的方法,通过构建区间MDP的模型近似,以合成在采样环境下表现良好的单一政策,并提供了在未知新环境中仍能满足性能要求的保障。研究结果展示了所提方法在多种基准测试中的高性能和鲁棒性,并量化了其相关风险。
Aug, 2024