马尔可夫奖励过程中折扣值的循环估计器

AAAIFeb, 2020

马尔可夫奖励过程中折扣值的循环估计器

Loop Estimator for Discounted Values in Markov Reward Processes

Falcon Z. Dai, Matthew R. Walter

TL;DR研究怎样使用所提出的 Loop estimator 算法优化 Policy iteration 算法中的 Policy evaluation 步骤，实现有效的、具有强大空间和收敛性的单状态 s 值计算，以精确地评估 MDP 中的状态价值。

Abstract

At the working heart of policy iteration algorithms commonly used and studied in the discounted setting of reinforcement learning, the policy evaluation step estimates the value of states with samples from a Mark

policy iteration algorithms reinforcement learning markov processes regenerative structure estimator

发现论文，激发创造

高维状态空间中具有有限时间保证的马尔可夫决策过程的结构估计

本文提出了一种单步估计算法，用于处理高维状态空间，同时又不会降低奖励估计精度的问题。该算法通过随机梯度最大化似然函数，使每次策略改进都能够进行。研究表明，该算法可以达到平稳状态，同时在 MuJoCo 机器人控制问题和其转移设置中，相比其他逆向强化学习算法和模仿学习基准，该算法表现更好。

Oct, 2022

关于马尔可夫决策过程的奖励结构

马尔可夫决策过程在强化学习中起着关键作用，本研究探讨了多种与强化学习相关的 ' 成本 '，研究了策略评估的样本复杂度，并开发了一种具有实例特定误差界限的新估计器；在在线遗憾最小化设置下，通过引入基于奖励的常量和基于潜力的奖励塑形技术，提供了理论上的解释；提出了一种安全强化学习研究方法，建立了重置效率的量化概念；针对具有多个奖励函数的决策过程，开发了一个能够计算出帕累托最优随机策略的规划算法。

Aug, 2023

折扣强化学习中的采样与估计故事

本文围绕折扣强化学习中下降估算最常见的问题，提出了关于估算误差与马尔科夫过程和折扣因子的混合特性的极小极大下界，然后对一组显著的估算器和相应的采样程序进行了统计分析，并表明直接从马尔科夫过程折扣核中进行抽样估计平均值，相对于传统估算器具有更优异的统计特性。

Apr, 2023

基于核的时间差分方法的最优策略评估

本文提出一种基于重现核希尔伯特空间的方法来估算无限时间折扣马尔可夫奖励过程的值函数的方法，并使用经验过程理论技术导出了误差的上界，同时证明了在样本大小 n 和有效时间跨度 H = (1-gamma)^{-1} 方面具有最优的最小值。

Sep, 2021

关于广义贝尔曼方程和时间差分学习

该论文研究了非政策时间差异学习在折扣马尔可夫决策过程中的应用，提出了一种新的基于广义 Bellman 方程设置 λ- 参数的方案来控制偏差，通过马尔科夫链理论证明了该方案的收敛性并分析了其在最小二乘实现中的收敛性。

Apr, 2017

马尔可夫环境下有限样本分析 GTD 策略评估算法

本文首次针对 Markov 过程下 GTD 算法进行了有限样本边界分析，证明了变体步长的 GTD 算法会收敛且收敛速度与步长和混合时间有关，说明经验回放技巧通过改善 Markov 过程的混合性能有利于算法收敛。

Sep, 2018

马尔可夫模型中的快速双向概率估计

本研究开发了一种双向算法来估计马尔可夫链的多步转移概率，该方法适用于离散状态空间上的任何马尔可夫链，可以用于计算多步转移概率的函数，并且在 “稀疏” 马尔可夫链中，该方法的运行时间比 Monte Carlo 和功率迭代算法更小。

Jul, 2015

深度强化学习中策略梯度估计偏差的重新审视

本文从深度强化学习的角度重新审视了折扣式情节马尔科夫决策过程（MDP）中政策梯度的估计偏差，重点讨论了状态分布漂移引起的偏差，提出了 3 种减少偏差的方法（小学习率；基于自适应学习率的优化器，KL 正则化），并在连续控制任务上展示了实验结果。

Jan, 2023

计数无限状态空间马尔可夫决策过程的贝叶斯学习最优策略

该研究提出了一种基于贝叶斯思想和汤普森抽样的算法来解决优化数量可数的马尔可夫决策过程的控制问题，在未知参数和固定先验分布的情况下，能够稳定地获得近似最优解，适用于诸如通信网络和计算系统等不确定动力系统以及一些数量可数的排队模型。

Jun, 2023

强化学习中基于生成模型的样本复杂度研究

本文使用生成模型证明了在马尔可夫决策过程中，基于值迭代算法的样本复杂度 PAC 上限为 O (Nlog (N/δ)/((1-γ)³ε²))，其中 N 为状态 - 动作对的数量，γ 为折扣因子，ε 表示动作价值函数的 ε- 最优估计，δ 为概率。同时证明了在任何强化学习算法中，基于每个状态 - 动作对估计最优动作值函数的样本复杂度下限为 Θ(Nlog (N/δ)/((1-γ)³ε²))，该上限和下限在 N，ε、δ、1/(1-γ) 方面匹配。

Jun, 2012