具有时间变化的几何折扣的马尔可夫决策过程

Jul, 2023

具有时间变化的几何折扣的马尔可夫决策过程

Markov Decision Processes with Time-Varying Geometric Discounting

Jiarui Gan, Annika Hennes, Rupak Majumdar, Debmalya Mandal, Goran Radanovic

TL;DR研究了时间变动折扣率的无限时间段马尔可夫决策过程，以一个博弈论的视角看待每一个时间步骤为一个独立决策者，研究了所得到博弈的次游戏最佳均衡点（SPE）以及相关的算法问题。提出了 SPE 的存在性的构造性证明，证明了计算 SPE 的 EXPTIME 难度，同时证明了在较弱的假设条件下存在一个近似 SPE（ε-SPE）。提供了计算 ε-SPE 的算法，并提供了时间复杂度上界，该上界是基于时间变动折扣率的收敛特性的函数。

Abstract

Canonical models of markov decision processes (MDPs) usually consider geometric discounting based on a constant discount factor. While this standard modeling approach has led to many elegant results, some recent studies indicate the necessity of modeling →

markov decision processes time-varying discounting infinite-horizon mdps game-theoretic perspective subgame perfect equilibrium

发现论文，激发创造

用生成模型解决折扣马尔可夫决策过程的最优时间和样本复杂度

通过生成采样模型计算马尔可夫决策过程问题的最优策略及其样本复杂度分析。

Jun, 2018

降低方差的价值迭代算法及用于求解马尔可夫决策流程的更快速算法

提出了一种采用采样技术的快速算法来解决折扣马尔可夫决策过程的近似求解，并证明了算法的收敛性和复杂度。同时，结合经典的价值迭代与方差约减技术，改进了该算法的性能，使其具有线性收敛性和渐进最优性。

Oct, 2017

稀疏奖励确定性马尔可夫决策过程的快速在线精确解法

介绍了一种新的方法，确切高效地解决了具有稀疏奖励来源的确定性连续 MDP 问题，可以提高在机器人和无人系统等领域的应用价值，减少计算复杂度。

May, 2018

随机线性规划以几乎线性（有时是亚线性）的运行时间解决折扣马尔科夫决策问题

提出一种新的随机线性规划算法，利用价值 - 策略对偶和二叉树数据结构，自适应地采样状态 - 动作 - 状态转移，并进行指数原始 - 对偶更新，从而以几乎线性的运行时间在最坏情况下找到一个 ε- 最优策略。当马尔可夫决策过程是遍历的并且以某些特殊的数据格式指定时，该算法使用线性的运行时间，在状态 - 动作对的总数中是次线性的，为解决随机动态规划问题提供了新的途径和复杂性基准。

Apr, 2017

可证明高效的无限时间平均回报线性 MDP 的强化学习

设计了一个计算有效的算法，通过将平均奖励设定近似为折扣设定，并且在适当调整贴现因子时，通过运行基于乐观值迭代的算法来实现无限时段平均奖励线性马尔可夫决策过程 (MDP) 的 O (sqrt (T)) 的遗憾。

May, 2024

具有特征映射的折扣 MDP 的可证明高效强化学习

本论文介绍了一种基于特性映射的新算法，能够以线性的方式参数化转移核函数来处理强化学习中的大状态和行动空间，并且证明了该算法在一些强化学习的问题中，不需要访问生成模型就能取得多项式的最优后悔值，且总体上是近乎最优的。

Jun, 2020

折扣马尔可夫决策过程中均值 - 方差优化的统一算法框架

用假均值将混合风险下的 MDP 转化为标准 MDP，并提出一种基于二级优化结构的统一算法框架，该框架还允许收敛性分析。通过数值实验，验证了该算法的有效性。

Jan, 2022

具约束的有限时间 MDP 的高样本效率算法

本文研究了约束马尔可夫决策过程，并提出了一种在线算法，该算法利用了有限时间视角下的线性规划公式来进行乐观规划，以提供概率上正确的 γ 优化策略，该算法逐渐逼近最佳结果，并且保证结果最多只是 γ 深度有损失的结果，并且在指定公差范围内具有概率保证。

Sep, 2020

固定视界强化学习的样本复杂度

本文研究了固定时间段内交互式学习智能体的表现，并从样本复杂度的角度提出了上下 PAC 确定性保证边界，为固定时间段内 MDP 的研究提供了理论上的支持。

Oct, 2015

简化的马尔可夫决策过程：超出时间范围的视角

本文通过分析满足特定漂移条件的随机最短路径问题的子类，引入降低可达性的概念，提出了一种构建并求解随机最短路径问题和马尔可夫决策过程的多项式时间算法，经实验验证效果良好。

May, 2022