带有凸代价函数的结构化 MDP 学习：改进的库存管理遗憾界限

May, 2019

带有凸代价函数的结构化 MDP 学习：改进的库存管理遗憾界限

Learning in structured MDPs with convex cost functions: Improved regret bounds for inventory management

Shipra Agrawal, Randy Jia

TL;DR设计了一种学习算法来解决一个基本库存管理中未知需求分布的问题，使用基本库存策略的下限和凸性等属性来建立与随机凸臂优化的联系，极大地提高了此问题的已知后悔上限。

Abstract

We consider a stochastic inventory control problem under censored demands, lost sales, and positive lead times. This is a fundamental problem in inventory management, with significant literature establishing near-optimality of a simple class of policies called ``→

stochastic inventory control regret bound base-stock policies learning algorithm convexity

发现论文，激发创造

具有约束条件的无限时间平均奖励马尔可夫决策过程学习

本研究提出了一种政策优化算法，用于处理成本约束下的无限时间跨度平均奖励马尔可夫决策过程中的后悔最小化问题，该算法在符合一定条件的 MDP 下具有较低的后悔度和约束违反率，并将其推广到弱通信 MDP 领域，为该领域提供了复杂度可行的算法。

Jan, 2022

通过线性优化改进线性对抗 MDPs 的遗憾界

本文探讨了如何用线性优化的方法解决在对抗环境下的马尔科夫决策过程问题，通过将特征映射设置到线性优化的赌臂中，得到了不需要访问转移模拟器的新技术，并在探索性的假设下，将线性对手马尔科夫决策问题的最优结果从 $ ilde {O}(K^{6/7})$ 提高到了 $ ilde {O}(K^{4/5})$。

Feb, 2023

MDP 中无折扣强化学习的方差感知遗憾界

本研究考虑了在未知的离散马尔科夫决策过程下，使用平均奖励准则的强化学习问题，其中学习者从一个初始状态开始，通过单个观察流与系统进行交互。我们提供了 KL-UCRL 算法的新分析，为该算法建立了高概率遗憾界，对于同一类随机过程的效果较之前的算法遗憾界有数量级的提升。

Mar, 2018

在约束条件下的马尔可夫决策过程学习

本文研究如何在满足成本平均值约束条件下，通过设计基于模型的强化学习算法，从而最大化累积奖励，同时确保每个成本值的平均值被绑定在特定的上界之内。此外，我们提出了一种衡量强化学习算法表现的方法，即使用 M+1 维的后悔向量来衡量奖励和不同成本的差异，并证明了 UCRL-CMDP 算法的后悔向量的期望值的上界为 O（T ^ {2/3}）.

Feb, 2020

线性函数逼近的对抗式 MDP 的精炼遗憾

本文研究了在损失函数任意的情况下，对于线性近似的 Q 函数，提出了两种算法，可以在拥有模拟器的情况下使得损失最小值达到 $\tilde {\mathcal O}(\sqrt K)$，并在无模拟器情况下实现了 $ ilde {\mathcal O}(K^{8/9})$ 的表现，改进了之前的表现

Jan, 2023

在平均回报 MDPs 中实现可行的最小最优后悔

这篇论文介绍了一种具有最小最大后悔度的可行算法，该算法通过使用一种新颖的子程序，即 Projected Mitigated Extended Value Iteration（PMEVI），来高效地计算偏差受限最优策略。同时，该算法不需要先前关于偏差函数的信息。

Jun, 2024

面向具有悔恨的对抗性线性马尔可夫决策过程的最优化

在线强化学习是研究的主题之一，尤其在线性 Markov 决策过程中使用了对抗性损失和强盗反馈，提出了两个算法以改善后悔性能。

Oct, 2023

结构化强化学习的探索

研究了基于有限状态和行动空间的强化学习问题，探讨了如何最小化次优（状态、行动）对的探索率。得出特定于问题的遗憾下限，并提出一种新的学习算法 DEL （Directed Exploration Learning），让算法的性能达到遗憾下限，且对于 Lipschitz 连续性的 MDP，简化版 DEL 算法仍能高效利用其结构。

Jun, 2018

使用线性函数逼近学习无限时间平均回报马尔可夫决策过程

开发多种学习用于 Markov Decision Processes 的无限时间平均奖励设置和线性函数逼近的算法，使用乐观原则和假设 MDP 具有线性结构，提出具有优化的计算效率的算法，并展开了详细的分析，改进了现有最佳结果。

Jul, 2020

利用线性函数近似的强化学习的一阶遗憾：一种鲁棒估计方法

本研究基于鲁棒 Catoni 平均值估计器，提出一种新的鲁棒自归一化浓度界，解决了已有技术在大状态空间强化学习中无法获得遗憾上界的问题，并证明了在线性 MDP 设定下，可以获得与最优策略性能某种度量成比例的遗憾上界。

Dec, 2021