本文介绍了一种鲁棒的任意学习方法,该方法结合了贝叶斯推断模型和计算稳健策略的方法,以不确定性马尔科夫决策过程(uMDPs)为基础,并通过实验验证了该方法的有效性。
May, 2022
该研究探讨了在不确定参数的最具对抗性分布下,实现最大期望总回报的分布鲁棒 MDP,通过在模糊集格式中加入不确定性的广义矩和统计距离信息,将泛化动量和统计距离模糊集的现有研究推广到后者类别,进而提出了一种新的描述不确定性空间的模糊集形式。在此模糊集形式下,当满足一些温和的技术条件时,可以通过解决一系列一阶凸优化子问题来构建一份分布鲁棒策略。
Jan, 2018
本研究提出了一种策略梯度算法,解决了鲁棒无限期马尔可夫决策过程中的非矩形不确定性集的问题,为相关领域的研究提供了可行性。
May, 2023
本文研究了面临参数不确定性的大规模马尔可夫决策过程(MDP),并基于鲁棒 MDP 范式,应用增强学习方法解决了规模巨大且无法使用动态规划技术的实际问题解决方法。该方法在特定技术条件下被证明可以成功,通过对期权定价问题的模拟的证明其有效性,是首次尝试扩大鲁棒 MDPs 范式的尝试。
Jun, 2013
本文综述了决策制定中的不确定性状态,并关注走在经典解释之外的不确定性,尤其是区分了可变性不确定性和认知不确定性。作者提供了多种解决方案,包括离散和连续模型,从正式验证、控制抽象到强化学习,以优秀解法应对认知不确定性,并列举和讨论了处理丰富类型不确定性时出现的重要挑战。
Mar, 2023
本文研究了参数不确定的马尔可夫决策过程,利用分布鲁棒优化框架来得到在最具有敌意的分布下的最大性能期望值。通过将不确定参数视为随机变量,本文泛化了以前的研究并证明,在较温和的技术条件下,可以高效地获得最优策略,这极大地扩展了分布鲁棒 MDP 集成不确定性的概率信息的灵活性。
Jan, 2015
本文提出了基于不确定性鲁棒贝尔曼方程(URBE)的 DQN-URBE 算法,通过贝叶斯方法来学习鲁棒马尔可夫决策过程的参数,并能够快速调整参数以适应系统行为的变化,在保持鲁棒性的同时获得更少保守的解。
May, 2019
研究如何解决具有不确定转移内核的折现,有限状态,有限行动空间 MDP 的强鲁棒性问题,旨在寻找一个抵抗传递不确定性的最佳策略。与标准 MDP 规划相比,本文提出了一个名为 RPMD 的策略型一阶方法,并对于两种递增步长的情形,建立了寻找 ε- 最优策略的 O (log (1/ε)) 和 O (1/ε) 迭代复杂度。本文还提出了一种名为 SRPMD 的随机变量。
Sep, 2022
本文研究了鲁棒马尔可夫决策过程的最优鲁棒策略和价值函数的非渐近和渐近性能,并考虑了不同的不确定性集。实验验证了最优鲁棒价值函数在理论和实际应用中均呈现出典型的 √n 比例的渐近正态性。
May, 2021
在环境变化、干扰函数估计不一致和有限样本学习的情况下,本研究旨在评估策略值,并提出了一种扰动模型,可以根据转移观测对传统 MDP 进行边界估计。
Mar, 2024