具有连续侧信息的马尔可夫决策过程

Nov, 2017

具有连续侧信息的马尔可夫决策过程

Markov Decision Processes with Continuous Side Information

Aditya Modi, Nan Jiang, Satinder Singh, Ambuj Tewari

TL;DR本文提出了一种基于上下文的马尔可夫决策过程增强学习算法，用于医疗保健中的治疗决策。算法基于平滑性假设进行学习，并给出了 PAC 边界。在上下文可线性组合的情况下，基于 KWIK 学习技术，我们提供了一个 PAC 学习算法。

Abstract

We consider a reinforcement learning (RL) setting in which the agent interacts with a sequence of episodic MDPs. At the start of each episode the agent has access to some side-information or context that determines the dynamics of the MDP for that episode. Our setting is motivated by a

reinforcement learning contextual markov decision processes healthcare smoothness assumption kwik learning techniques

发现论文，激发创造

潜在马尔可夫决策过程的前瞻性侧信息

在许多交互决策的场景中存在着潜在且未被观察到的固定信息。本文研究了拥有潜在上下文信息的潜在马尔可夫决策过程（LMDP）类的问题，证明了任何具有样本高效算法的算法必须至少具有 Ω(K^(2/3)) 的后悔，提出了一个具有匹配上限的算法。

Oct, 2023

线性情境马尔可夫决策过程的样本复杂度刻画

该论文研究了上下文马尔可夫决策过程（CMDPs）在线性函数逼近模型下的性质，提出了创新的基于模型的算法，并证明了其在样本复杂度方面的优越性。比较两种模型的结果表明，上下文变化的特征比所有上下文共享表示在线性 CMDPs 中具有更好的样本效率。

Feb, 2024

上下文马尔可夫决策过程

论文讨论了一种名为 CMDP 的新模型，可模拟顾客在与网站交互时的行为，并基于此行为决定顾客特征，优化交互。作者提出了一系列算法，可以学习潜在的模型和上下文，并优化 CMDPs。

Feb, 2015

带有侧面信息的 MDPs 在线学习

本文提出了一种在线学习算法，使用有限马尔可夫决策过程解决了具有临床试验和推荐系统的应用方案的问题，该算法可以在计算效率上得到提升，并且在此设置下的后悔度最多为 O (√T)。

Jun, 2014

面向持续学习的块上下文 MDPs

本文提出使用块上下文 MDP 框架来研究连续强化学习情境，该框架用于解决非稳态性和丰富的观察设置所带来的挑战，并提出了一种新算法以实现零 - shot 自适应，并在多个非稳态情境中取得了良好的表现。

Oct, 2021

具有历史依赖的动态环境下的强化学习

本研究介绍了一种新的强化学习框架：动态上下文马尔可夫决策过程（DCMDPs），着重关注于处理非马尔可夫环境的情况。该模型利用聚合函数确定上下文转换，使得指数与历史长度的依赖关系得到破解。作者还展现了在基于该模型的算法上的实现效果。实验根据 MovieLens 数据开展，主要探讨了针对推荐任务变化的用户行为的模式研究

Feb, 2023

离散 Markov 语境演变下的强化学习

本文基于贝叶斯方法和变分推断，通过运用适合马尔科夫过程建模的粘性 HDP 先验，提出了一种处理具有不可观测可变上下文、马尔科夫上下文演化和突发性上下文变化的情境相关强化学习问题的框架，并且在运用了上述框架后，成功地实现了在一些开放环境下的较高效政策学习，这也是其他同类方法做不到的。

Feb, 2022

具约束的有限时间 MDP 的高样本效率算法

本文研究了约束马尔可夫决策过程，并提出了一种在线算法，该算法利用了有限时间视角下的线性规划公式来进行乐观规划，以提供概率上正确的 γ 优化策略，该算法逐渐逼近最佳结果，并且保证结果最多只是 γ 深度有损失的结果，并且在指定公差范围内具有概率保证。

Sep, 2020

强健的马尔可夫决策流程即时学习

本文介绍了一种鲁棒的任意学习方法，该方法结合了贝叶斯推断模型和计算稳健策略的方法，以不确定性马尔科夫决策过程（uMDPs）为基础，并通过实验验证了该方法的有效性。

May, 2022

具有外部时间进程的马尔可夫决策过程

本文研究在外部时间过程的影响下的马尔可夫决策过程，提出了一个策略迭代算法来解决这个问题，并对其性能进行了理论分析。

May, 2023