基于分层探索 - 利用权衡的离线 Oracle 高效学习上下文 MDP

May, 2024

基于分层探索 - 利用权衡的离线 Oracle 高效学习上下文 MDP

Offline Oracle-Efficient Learning for Contextual MDPs via Layerwise Exploration-Exploitation Tradeoff

Jian Qian, Haichen Hu, David Simchi-Levi

TL;DR本文提出了一种从上下文马尔科夫决策过程到离线密度估计的高效、近似最优的转化算法，同时解决了无结构假设的模型类 CMDPs。

Abstract

Motivated by the recent discovery of a statistical and computational reduction from contextual bandits to offline regression (Simchi-Levi and Xu, 2021), we address the general (stochastic) →

contextual bandits offline regression contextual markov decision process offline density estimation layerwise exploration-exploitation tradeoff

发现论文，激发创造

CMDP 离策略学习的近似最优原始对偶算法

本研究针对离线数据的约束马尔可夫决策过程问题，引入了单策略集中度系数、提出了 DPDL 算法，并建立了样本复杂度下界，保证无约束违规。

Jul, 2022

线性情境马尔可夫决策过程的样本复杂度刻画

该论文研究了上下文马尔可夫决策过程（CMDPs）在线性函数逼近模型下的性质，提出了创新的基于模型的算法，并证明了其在样本复杂度方面的优越性。比较两种模型的结果表明，上下文变化的特征比所有上下文共享表示在线性 CMDPs 中具有更好的样本效率。

Feb, 2024

几乎没有视野限制的离线强化学习

本文利用离线强化学习技术研究了时域同质马尔可夫决策过程上的策略评估和优化问题，并提出了一种递归方法来限制离线场景下的 “总方差” 项，得到了近似无视野远的样本复杂度上限。

Mar, 2021

具约束的有限时间 MDP 的高样本效率算法

本文研究了约束马尔可夫决策过程，并提出了一种在线算法，该算法利用了有限时间视角下的线性规划公式来进行乐观规划，以提供概率上正确的 γ 优化策略，该算法逐渐逼近最佳结果，并且保证结果最多只是 γ 深度有损失的结果，并且在指定公差范围内具有概率保证。

Sep, 2020

具有历史依赖的动态环境下的强化学习

本研究介绍了一种新的强化学习框架：动态上下文马尔可夫决策过程（DCMDPs），着重关注于处理非马尔可夫环境的情况。该模型利用聚合函数确定上下文转换，使得指数与历史长度的依赖关系得到破解。作者还展现了在基于该模型的算法上的实现效果。实验根据 MovieLens 数据开展，主要探讨了针对推荐任务变化的用户行为的模式研究

Feb, 2023

上下文马尔可夫决策过程

论文讨论了一种名为 CMDP 的新模型，可模拟顾客在与网站交互时的行为，并基于此行为决定顾客特征，优化交互。作者提出了一系列算法，可以学习潜在的模型和上下文，并优化 CMDPs。

Feb, 2015

具有下层背景上下文的随机双层优化与决策过程

我们介绍了一种基于情境马尔可夫决策过程（CMDP）的双层优化策略模型（BO-CMDP），该模型可以看作是领导者和随机情境共同决定多个马尔可夫决策过程（MDP）的设定，在各种应用中寻求最佳决策策略，进而应用于 MDP 模型设计、税务设计、奖励塑造和动态机制设计等领域。我们提出了一种基于梯度下降的随机超级策略（HPGD）算法用于求解 BO-CMDP 问题，并证明了其收敛性。该算法只利用随从者的轨迹观察，使得随从者可以使用任何训练过程而领导者无需了解具体算法，使得该模型适用于各种实际应用场景。我们还考虑了领导者能够影响随从者训练的情形，并提出了一种加速算法。我们通过实验证明了我们算法的性能。

Jun, 2024

在约束马尔可夫决策过程中实现 $\tilde {O}(1/ε)$ 的样本复杂性

我们研究了强化学习问题中的约束马尔可夫决策过程（CMDP），并通过优化算法对 CMDP 问题的样本复杂度提出了改进，实现了优化的问题相关保证。

Feb, 2024

学习具有随机硬约束的对抗式马尔可夫决策过程

我们研究带有对抗性损失和随机硬约束的约束马尔可夫决策过程（CMDP）中的在线学习问题。我们设计了两种不同的情景，第一种是在一般 CMDP 中实现次线性遗憾和累积正约束违规的算法。第二种情景下，我们假设策略存在且对学习者已知，并设计了一个算法，确保次线性遗憾的同时，高概率满足所有回合的约束。据我们所知，我们的工作是第一个研究同时涉及对抗性损失和硬约束的 CMDP。这些算法可处理一般非平稳环境中的要求，要求比现有算法处理的要严格得多，从而能够在更广范围的实际应用中采用，包括自动驾驶、在线广告和推荐系统。

Mar, 2024

通过离线神谕在具有多个类别的情境下选择最优模型的方法

本研究提出了一种新的算法，用于解决上下文 Bandit 问题中的模型选择问题，该算法通过离线模型选择预言机的方式平衡偏差 - 方差交换和探索 - 利用交换，并具有与回归模型选择相同的计算要求。

Jun, 2021