面向持续学习的块上下文 MDPs

Oct, 2021

Block Contextual MDPs for Continual Learning

Shagun Sodhani, Franziska Meier, Joelle Pineau, Amy Zhang

TL;DR本文提出使用块上下文 MDP 框架来研究连续强化学习情境，该框架用于解决非稳态性和丰富的观察设置所带来的挑战，并提出了一种新算法以实现零 - shot 自适应，并在多个非稳态情境中取得了良好的表现。

Abstract

In reinforcement learning (RL), when defining a markov decision process (MDP), the environment dynamics is implicitly assumed to be stationary. This assumption of stationarity, while simplifying, can be unrealist

reinforcement learning markov decision process nonstationarity contextual mdp adaptive control

发现论文，激发创造

具有连续侧信息的马尔可夫决策过程

本文提出了一种基于上下文的马尔可夫决策过程增强学习算法，用于医疗保健中的治疗决策。算法基于平滑性假设进行学习，并给出了 PAC 边界。在上下文可线性组合的情况下，基于 KWIK 学习技术，我们提供了一个 PAC 学习算法。

Nov, 2017

离散 Markov 语境演变下的强化学习

本文基于贝叶斯方法和变分推断，通过运用适合马尔科夫过程建模的粘性 HDP 先验，提出了一种处理具有不可观测可变上下文、马尔科夫上下文演化和突发性上下文变化的情境相关强化学习问题的框架，并且在运用了上述框架后，成功地实现了在一些开放环境下的较高效政策学习，这也是其他同类方法做不到的。

Feb, 2022

非平稳马尔可夫决策过程：基于模型的加强学习最坏情况方法，扩展版

本研究旨在解决在非恒定随机环境下的鲁棒零 - shot 规划问题，通过引入定义了特定类别的马尔可夫决策过程来进行计算建模，并提出了一种零 - shot 基于模型的风险敏感树搜索算法。

Apr, 2019

非平稳马尔可夫决策过程的重启贝叶斯在线变点检测

研究使用贝叶斯在线变点检测算法对使用多项式分布的马尔可夫决策过程进行非定常强化学习，提出了改进的 UCRL2 算法

Apr, 2023

具有历史依赖的动态环境下的强化学习

本研究介绍了一种新的强化学习框架：动态上下文马尔可夫决策过程（DCMDPs），着重关注于处理非马尔可夫环境的情况。该模型利用聚合函数确定上下文转换，使得指数与历史长度的依赖关系得到破解。作者还展现了在基于该模型的算法上的实现效果。实验根据 MovieLens 数据开展，主要探讨了针对推荐任务变化的用户行为的模式研究

Feb, 2023

时钟受限的鲁棒马尔科夫决策过程

通过引入新的时间约束鲁棒马尔科夫决策过程（TC-RMDP）表达方式，考虑到多因素、相关性和时变干扰，该研究重新审视了鲁棒强化学习中的传统假设，为发展更实际、更真实的强化学习应用开辟了新的路径，同时在时间受限环境下，在保持鲁棒性的同时，取得了性能和鲁棒性之间的高效平衡。

Jun, 2024

深度强化学习在生命周期非稳态环境下的应用

在非稳态环境下，我们提出了一种新的离线强化学习算法，该算法使用潜在变量模型，将当前和过去的经验学习环境的表示，并在此表示下执行离线强化学习，实验结果表明这种方法显著优于不考虑环境变化的方法。

Jun, 2020

非静态马尔科夫决策过程的强化学习：（更多）乐观的祝福

本研究使用不打折扣的强化学习方法，针对马尔可夫决策过程中的漂移非稳定性问题，提出了 Sliding Window Upper-Confidence bound for Reinforcement Learning with Confidence Widening 算法和 Bandit-over-Reinforcement Learning 算法，并证明了它们的动态后悔限制及其在参数不确定性情况下的适应性。

Jun, 2020

非平稳低秩 MDP 的可证明高效算法

本研究在探讨非平稳马尔可夫决策过程下的强化学习问题，针对低秩模型中存在未知表示的情况，提出了参数依赖的优化算法 PORTAL 和参数无关的改进版 Ada-PORTAL，通过样本复杂度进行理论分析并得出上界，证明了在非平稳性不显著时，这两种算法均能够以多项式样本复杂度实现任意小的平均动态次优差距。

Aug, 2023

超网络下的连续模型强化学习

通过使用任务条件超网络连续学习遇到的动态模型，HyperCRL 方法在机器人运动和操作任务中实现了连续模型基于强化学习，而不需要重新训练之前的任务，同时超越了现有的连续学习替代方法

Sep, 2020