非平稳马尔可夫决策过程:基于模型的加强学习最坏情况方法,扩展版
在处理非平稳环境的序贯决策问题中,我们提出了一种自适应蒙特卡洛树搜索算法,通过学习环境的更新动态来改进决策过程,减少过分悲观的行为并提高决策速度。
Jan, 2024
本研究提出了一种基于权重最小二乘值迭代的非稳态线性马尔可夫决策过程(MDP)最优模型 - free 算法 OPT-WLSVI,使用指数权重平滑地遗忘过去的数据,与先前的研究相比解决了遗忘策略上的技术差距,并分析了与最佳策略竞争的总遗憾是有上限的。
Oct, 2020
研究使用熵风险度量在非平稳有限马尔可夫决策过程中采用风险敏感强化学习,提出了两种基于重启的算法以及自适应检测不稳定性的元算法,并证明了算法的动态后悔下界。该研究为文献中的非平稳风险敏感强化学习提供了首个非渐近理论分析。
Nov, 2022
本研究在探讨非平稳马尔可夫决策过程下的强化学习问题,针对低秩模型中存在未知表示的情况,提出了参数依赖的优化算法 PORTAL 和参数无关的改进版 Ada-PORTAL,通过样本复杂度进行理论分析并得出上界,证明了在非平稳性不显著时,这两种算法均能够以多项式样本复杂度实现任意小的平均动态次优差距。
Aug, 2023
提出了一种能够在非稳态环境中以在线方式稳健演化一个凸覆盖策略集的新型多目标强化学习算法,并在稳态和非稳态环境中与现有算法进行比较,结果表明该算法在非稳态环境中显著优于现有算法,并在稳态环境中达到可比较的结果。
Aug, 2023
本研究使用不打折扣的强化学习方法,针对马尔可夫决策过程中的漂移非稳定性问题,提出了 Sliding Window Upper-Confidence bound for Reinforcement Learning with Confidence Widening 算法和 Bandit-over-Reinforcement Learning 算法,并证明了它们的动态后悔限制及其在参数不确定性情况下的适应性。
Jun, 2020
本文介绍了一种名为 Prognosticator 的策略梯度算法,这种算法通过对政策性能的预测来主动搜索一个好的未来策略,并且通过将过去数据进行非均匀重新赋权,使该算法比其他两种在线适应技术更具鲁棒性。
May, 2020
该研究提出了一种针对 MDP 的决策学习与规划框架,其中决策制定者执行的动作有 $m$ 步的延迟,研究表明使用非恒定的马尔科夫策略,可以在非常大的延迟下实现最大化奖励,并介绍了一种无需状态增强即可解决延迟执行任务的 Q-learning 风格模型。
Jan, 2021
本文提出使用块上下文 MDP 框架来研究连续强化学习情境,该框架用于解决非稳态性和丰富的观察设置所带来的挑战,并提出了一种新算法以实现零 - shot 自适应,并在多个非稳态情境中取得了良好的表现。
Oct, 2021
本文介绍了基于马尔可夫决策过程(MDP)中存在确定性可选动作集合的局限性,提出了一种新的基于随机动作集合的马尔可夫决策过程(SAS-MDP)模型,并针对旧 RL 算法在 SAS-MDP 中可能存在的发散问题,提出了包含独特的方差缩减技术的新的策略梯度算法以及收敛条件,并通过真实用例启发的任务实验表明了该方法的实用性。
Jun, 2019