凸 MDP 的奖励足矣

Jun, 2021

Reward is enough for convex MDPs

Tom Zahavy, Brendan O'Donoghue, Guillaume Desjardins, Satinder Singh

TL;DR本文研究在马尔可夫决策过程中用凸函数表达目标的问题，使用 Fenchel 对偶将其重新表达为一个涉及策略和成本（负奖励）的 min-max 博弈，并提出一个元算法以统一现有文献中的各种算法。

Abstract

Maximising a cumulative reward function that is Markov and stationary, i.e., defined over state-action pairs and independent of time, is sufficient to capture many kinds of goals in a markov decision process (MDP). However, not all goals can be captured in this manner. In this paper we

markov decision process convex mdps reinforcement learning fenchel duality algorithm

发现论文，激发创造

利用强化学习处理非累计目标的决策过程

本文介绍了非累积马尔可夫决策过程（NCMDPs）与标准马尔可夫决策过程（MDPs）之间的一种映射关系，并展示了在强化学习中的应用，包括经典控制、金融组合优化和离散优化问题。通过我们的方法，相较于依赖标准 MDPs，我们可以改善最终性能和训练时间。

May, 2024

在线马尔可夫决策过程中全局凸奖励的强化学习中的勘探利用权衡

研究了在 Markov 决策问题中，代理人通过在线凸规划算法设计非固定策略，以最大化全局凹奖励函数和矢量结果的均值，以解决多目标优化和 Markov 环境下的受限优化问题。

May, 2019

马尔科夫决策过程中的委托 - 代理奖励塑造

两个参与方之间的代理问题会给利益产生冲突。本文探讨了奖励设计在预算限制下如何提高委托方效用，研究了一个两人博弈模型中的马尔科夫决策过程，结果表明该问题的求解是 NP 难的，但我们提供了针对随机树和具有有限时间跨度的确定性决策过程的多项式逼近算法。

Dec, 2023

有限马尔可夫决策问题中的勘探 - 利用

本文研究了 Constrained Markov Decision Processes 下的 exploration-exploitation trade-off 问题，提出了两种方法：基于线性规划和基于对偶变量逐步更新的方法。研究结果表明，这两种方法都可以实现 sublinear regret，但是线性规划方法具有更强的保障性。

Mar, 2020

关于马尔可夫决策过程的奖励结构

马尔可夫决策过程在强化学习中起着关键作用，本研究探讨了多种与强化学习相关的 ' 成本 '，研究了策略评估的样本复杂度，并开发了一种具有实例特定误差界限的新估计器；在在线遗憾最小化设置下，通过引入基于奖励的常量和基于潜力的奖励塑形技术，提供了理论上的解释；提出了一种安全强化学习研究方法，建立了重置效率的量化概念；针对具有多个奖励函数的决策过程，开发了一个能够计算出帕累托最优随机策略的规划算法。

Aug, 2023

强化学习中的保守探索

本文介绍了在概率有限马尔可夫决策问题中引入保守探索的概念，并提出了两种乐观算法，以保证学习过程中不违反保守约束，这不会妨碍算法的学习能力，并给出了后悔界限。

Feb, 2020

通过无悔动力学求解健壮 MDP

通过解决最小最大迭代优化问题的简单框架，我们利用在线非凸学习和改进策略梯度方法的技术，提出了一种算法，该算法在 $O (1/T^{1/2})$ 的时间内能最大化带着鲁棒性的价值函数。

May, 2023

一种用于动作 - 状态熵正则化奖励最大化的通用马尔可夫决策过程形式化方法

提供将约束优化问题转换为无约束凸优化问题的一般性双重函数形式主义，适用于动作和状态熵的任意混合，其中，动作熵和状态熵的纯形式被理解为混合的极限。这解决了前人关于动作、状态和混合熵正则化、纯探索和空间占用等问题的解决方案很麻烦的难题。

Feb, 2023

马尔科夫决策过程中约束风险的强化学习策略

本研究提出了一种基于 MDPs 的风险受限规划算法，它将 UCT-like 搜索与通过线性规划实现的风险受限动作选择相结合，以最大化在低于所需阈值的情况下遇到故障状态的预期贴现总和回报。

Feb, 2020

凸形强化学习中的常见假设挑战

本文针对凸强化学习中优化无限试验目标带来的近似误差问题展开研究，并指出这一问题将影响包括模仿学习在内的相关领域的方法和技术。

Feb, 2022