具有历史依赖的动态环境下的强化学习

Feb, 2023

具有历史依赖的动态环境下的强化学习

Reinforcement Learning with History-Dependent Dynamic Contexts

Guy Tennenholtz, Nadav Merlis, Lior Shani, Martin Mladenov, Craig Boutilier

TL;DR本研究介绍了一种新的强化学习框架：动态上下文马尔可夫决策过程（DCMDPs），着重关注于处理非马尔可夫环境的情况。该模型利用聚合函数确定上下文转换，使得指数与历史长度的依赖关系得到破解。作者还展现了在基于该模型的算法上的实现效果。实验根据 MovieLens 数据开展，主要探讨了针对推荐任务变化的用户行为的模式研究

Abstract

We introduce dynamic contextual markov decision processes (DCMDPs), a novel reinforcement learning framework for history-dependent environments

dynamic contextual markov decision processes reinforcement learning history-dependent environments logistic dcmdps recommendation task

发现论文，激发创造

上下文马尔可夫决策过程

论文讨论了一种名为 CMDP 的新模型，可模拟顾客在与网站交互时的行为，并基于此行为决定顾客特征，优化交互。作者提出了一系列算法，可以学习潜在的模型和上下文，并优化 CMDPs。

Feb, 2015

线性情境马尔可夫决策过程的样本复杂度刻画

该论文研究了上下文马尔可夫决策过程（CMDPs）在线性函数逼近模型下的性质，提出了创新的基于模型的算法，并证明了其在样本复杂度方面的优越性。比较两种模型的结果表明，上下文变化的特征比所有上下文共享表示在线性 CMDPs 中具有更好的样本效率。

Feb, 2024

具有连续侧信息的马尔可夫决策过程

本文提出了一种基于上下文的马尔可夫决策过程增强学习算法，用于医疗保健中的治疗决策。算法基于平滑性假设进行学习，并给出了 PAC 边界。在上下文可线性组合的情况下，基于 KWIK 学习技术，我们提供了一个 PAC 学习算法。

Nov, 2017

离散 Markov 语境演变下的强化学习

本文基于贝叶斯方法和变分推断，通过运用适合马尔科夫过程建模的粘性 HDP 先验，提出了一种处理具有不可观测可变上下文、马尔科夫上下文演化和突发性上下文变化的情境相关强化学习问题的框架，并且在运用了上述框架后，成功地实现了在一些开放环境下的较高效政策学习，这也是其他同类方法做不到的。

Feb, 2022

面向持续学习的块上下文 MDPs

本文提出使用块上下文 MDP 框架来研究连续强化学习情境，该框架用于解决非稳态性和丰富的观察设置所带来的挑战，并提出了一种新算法以实现零 - shot 自适应，并在多个非稳态情境中取得了良好的表现。

Oct, 2021

具有下层背景上下文的随机双层优化与决策过程

我们介绍了一种基于情境马尔可夫决策过程（CMDP）的双层优化策略模型（BO-CMDP），该模型可以看作是领导者和随机情境共同决定多个马尔可夫决策过程（MDP）的设定，在各种应用中寻求最佳决策策略，进而应用于 MDP 模型设计、税务设计、奖励塑造和动态机制设计等领域。我们提出了一种基于梯度下降的随机超级策略（HPGD）算法用于求解 BO-CMDP 问题，并证明了其收敛性。该算法只利用随从者的轨迹观察，使得随从者可以使用任何训练过程而领导者无需了解具体算法，使得该模型适用于各种实际应用场景。我们还考虑了领导者能够影响随从者训练的情形，并提出了一种加速算法。我们通过实验证明了我们算法的性能。

Jun, 2024

基于分层探索 - 利用权衡的离线 Oracle 高效学习上下文 MDP

本文提出了一种从上下文马尔科夫决策过程到离线密度估计的高效、近似最优的转化算法，同时解决了无结构假设的模型类 CMDPs。

May, 2024

渐进上下文动态自适应连续强化学习

本文提出一种基于动态自适应的连续强化学习框架 DaCoRL，采用渐进式上下文建模来对动态环境中的任务进行聚类，利用可扩展多头神经网络来逼近策略，同时借助在线贝叶斯聚类技术精确地分类当前任务并实例化所需的新上下文。在多个机器人导航任务和 MuJoCo 运动任务上进行的实验证明该框架具有更高的稳定性、总体性能和泛化能力。

Sep, 2022

可识别 MDP 赌博结构的问题相关性强化学习界限

本文研究通过强化学习算法让智能体在不确定性情况下进行最优决策。作者比较了常见的上下文决策框架和马尔可夫决策过程，并发现使用近期提出的针对马尔可夫决策过程的强化学习算法会在使用上下文决策框架的情况下获得最佳的表现。

Nov, 2019

基于无界时间跨度和方差的隐含马尔可夫决策过程强化学习

本文研究基于后知的上下文中的潜在马尔可夫决策过程（LMDPs）的强化学习中的遗憾最小化问题，设计了一种新的基于模型的算法框架，证明了具有一定时间复杂度的遗憾上限。

Oct, 2022