折扣强化学习中的采样与估计故事

Apr, 2023

折扣强化学习中的采样与估计故事

A Tale of Sampling and Estimation in Discounted Reinforcement Learning

Alberto Maria Metelli, Mirco Mutti, Marcello Restelli

TL;DR本文围绕折扣强化学习中下降估算最常见的问题，提出了关于估算误差与马尔科夫过程和折扣因子的混合特性的极小极大下界，然后对一组显著的估算器和相应的采样程序进行了统计分析，并表明直接从马尔科夫过程折扣核中进行抽样估计平均值，相对于传统估算器具有更优异的统计特性。

Abstract

The most relevant problems in discounted reinforcement learning involve estimating the mean of a function under the stationary distribution of a Markov reward process, such as the expected return in policy evaluation, or the policy gradient in →

discounted reinforcement learning markov process estimation policy optimization sampling

发现论文，激发创造

固定视界强化学习的样本复杂度

本文研究了固定时间段内交互式学习智能体的表现，并从样本复杂度的角度提出了上下 PAC 确定性保证边界，为固定时间段内 MDP 的研究提供了理论上的支持。

Oct, 2015

深度强化学习中策略梯度估计偏差的重新审视

本文从深度强化学习的角度重新审视了折扣式情节马尔科夫决策过程（MDP）中政策梯度的估计偏差，重点讨论了状态分布漂移引起的偏差，提出了 3 种减少偏差的方法（小学习率；基于自适应学习率的优化器，KL 正则化），并在连续控制任务上展示了实验结果。

Jan, 2023

广义离线估计稳定值

通过基于可变分歧最小化的约束重构，估计了马尔科夫链稳态分布的量，提出了一个简单而有效的算法 GenDICE，在离线 PageRank 和离线政策评估等基准问题上具有强大的实证性能。

Feb, 2020

分布式强化学习的估计与推断

本研究从统计效率的角度研究了分布式强化学习，重点研究了分布式策略评估问题，通过使用确定等价方法构建了一个估计器以解决样本效率问题，并研究了估计器的渐近行为。

Sep, 2023

基于核的时间差分方法的最优策略评估

本文提出一种基于重现核希尔伯特空间的方法来估算无限时间折扣马尔可夫奖励过程的值函数的方法，并使用经验过程理论技术导出了误差的上界，同时证明了在样本大小 n 和有效时间跨度 H = (1-gamma)^{-1} 方面具有最优的最小值。

Sep, 2021

线性函数逼近下的最小化最优离线策略评估

本文研究利用函数逼近的批量数据强化学习的统计理论，针对离线策略评估问题提出了基于回归的适应 Q 迭代方法，证明该方法是信息理论上的最优方法，错误估计接近最小，进而提供容易计算的置信区间，该方法在乐观规划和安全策略改进中可能有用

Feb, 2020

强化学习中基于生成模型的样本复杂度研究

本文使用生成模型证明了在马尔可夫决策过程中，基于值迭代算法的样本复杂度 PAC 上限为 O (Nlog (N/δ)/((1-γ)³ε²))，其中 N 为状态 - 动作对的数量，γ 为折扣因子，ε 表示动作价值函数的 ε- 最优估计，δ 为概率。同时证明了在任何强化学习算法中，基于每个状态 - 动作对估计最优动作值函数的样本复杂度下限为 Θ(Nlog (N/δ)/((1-γ)³ε²))，该上限和下限在 N，ε、δ、1/(1-γ) 方面匹配。

Jun, 2012

马尔可夫决策过程中的超越平均回报

马尔可夫决策过程中，奖励的功能有哪些可以精确计算和优化？我们总结了策略评估相关类的特性，给出了规划问题的新解答。同时，我们证明了只有广义平均数能够被精确优化，即使在分布式强化学习的更通用框架下也是如此。这些结果为推进马尔可夫决策过程的理论发展做出了贡献，尤其关注回报的整体特征和风险感知策略。

Oct, 2023

马尔可夫奖励过程中折扣值的循环估计器

研究怎样使用所提出的 Loop estimator 算法优化 Policy iteration 算法中的 Policy evaluation 步骤，实现有效的、具有强大空间和收敛性的单状态 s 值计算，以精确地评估 MDP 中的状态价值。

Feb, 2020

一种深度强化学习方法用于罕见事件估计

本研究旨在提出适用于顺序决策系统的两种自适应重要性采样算法，以高效地评估罕见事件的概率。该方法基于状态依赖的提议分布与目标分布之间的 Kullback-Leibler 散度最小化，用于减少精度方面的误差和处理多峰性提议分布的问题，并将多重重要性采样应用于多种基线以显示准确性改进。

Nov, 2022