通过无悔动力学求解健壮 MDP
本文研究了面临参数不确定性的大规模马尔可夫决策过程(MDP),并基于鲁棒 MDP 范式,应用增强学习方法解决了规模巨大且无法使用动态规划技术的实际问题解决方法。该方法在特定技术条件下被证明可以成功,通过对期权定价问题的模拟的证明其有效性,是首次尝试扩大鲁棒 MDPs 范式的尝试。
Jun, 2013
为了解决在连续状态和 / 或动作空间中得到强化学习(RL)无后悔保证仍然是该领域的主要挑战之一,本论文引入了一种新的结构性假设,即 $ u-$ 平滑性,它概括了迄今已提出的大多数设置(如线性 MDPs 和 Lipschitz MDPs),我们提出了两种算法,在 $ u-$ 平滑 MDPs 中对后悔进行最小化,这两种算法都建立在利用基于 Legendre 多项式的正交特征映射来构建 MDP 表示的思想上,第一种算法 extsc {Legendre-Eleanor} 在较弱的假设下实现无后悔属性,但计算效率低,而第二种算法 extsc {Legendre-LSVI} 虽然运行时间是多项式级别,但适用于较小的问题类别,经分析它们的后悔性能,我们将结果与 RL 理论的最新成果进行了比较,表明我们的算法达到了最佳保证。
Feb, 2024
通过引入新的时间约束鲁棒马尔科夫决策过程(TC-RMDP)表达方式,考虑到多因素、相关性和时变干扰,该研究重新审视了鲁棒强化学习中的传统假设,为发展更实际、更真实的强化学习应用开辟了新的路径,同时在时间受限环境下,在保持鲁棒性的同时,取得了性能和鲁棒性之间的高效平衡。
Jun, 2024
论文研究了缺失真实环境信息的强化学习问题,将鲁棒 MDP 框架扩展到无模型参数条件下的 RL 设置中,提出了三个具有鲁棒性的 Q-learning、SARSA 和 TD-learning 算法,并通过函数逼近扩展到大规模 MDPs,证明了其收敛性,并给出了保证局部最小的随机梯度下降算法。
Jun, 2017
本文介绍了非累积马尔可夫决策过程(NCMDPs)与标准马尔可夫决策过程(MDPs)之间的一种映射关系,并展示了在强化学习中的应用,包括经典控制、金融组合优化和离散优化问题。通过我们的方法,相较于依赖标准 MDPs,我们可以改善最终性能和训练时间。
May, 2024
本文提出了一种基于样本的方法来估计未知的不确定性集并设计了一种鲁棒 Q 学习算法和鲁棒 TDC 算法,可以在线上和增量的情况下实现,在不需要收敛性保证的情况下证明了 Q 学习算法收敛到最优的鲁棒 Q 函数,并证明了 TDC 算法渐近收敛到一些稳定点,在数值实验中进一步验证了算法的鲁棒性。
Sep, 2021
该研究针对有限时间段的离散马尔科夫决策问题,提出了一种算法并分析了其性能上限,得出了最先进的范围和如果环境规范小则更紧的限制,其不需要先前对应环境规范的知识,能解决经验学习中常常遇到的限制问题。
Jan, 2019
本篇论文研究鲁棒平均回报 MDP 问题,旨在找到一种策略,使其在不确定性的 MDP 集合中的最坏平均回报最优化。作者探讨了利用折扣 MDP 实现这个问题,证明了当折扣因子趋近于 1 时,鲁棒折扣价值函数收敛于鲁棒平均回报,并设计了鲁棒动态规划方法。同时,也考虑了直接处理鲁棒平均回报 MDP 问题的情况,并导出了其鲁棒 Bellman 方程,设计了一种鲁棒相对价值迭代算法来求解其策略。
Jan, 2023