折扣强化学习中的采样与估计故事
本文从深度强化学习的角度重新审视了折扣式情节马尔科夫决策过程(MDP)中政策梯度的估计偏差,重点讨论了状态分布漂移引起的偏差,提出了 3 种减少偏差的方法(小学习率;基于自适应学习率的优化器,KL 正则化),并在连续控制任务上展示了实验结果。
Jan, 2023
通过基于可变分歧最小化的约束重构,估计了马尔科夫链稳态分布的量,提出了一个简单而有效的算法 GenDICE,在离线 PageRank 和离线政策评估等基准问题上具有强大的实证性能。
Feb, 2020
本研究从统计效率的角度研究了分布式强化学习,重点研究了分布式策略评估问题,通过使用确定等价方法构建了一个估计器以解决样本效率问题,并研究了估计器的渐近行为。
Sep, 2023
本文提出一种基于重现核希尔伯特空间的方法来估算无限时间折扣马尔可夫奖励过程的值函数的方法,并使用经验过程理论技术导出了误差的上界,同时证明了在样本大小 n 和有效时间跨度 H = (1-gamma)^{-1} 方面具有最优的最小值。
Sep, 2021
本文研究利用函数逼近的批量数据强化学习的统计理论,针对离线策略评估问题提出了基于回归的适应 Q 迭代方法,证明该方法是信息理论上的最优方法,错误估计接近最小,进而提供容易计算的置信区间,该方法在乐观规划和安全策略改进中可能有用
Feb, 2020
本文使用生成模型证明了在马尔可夫决策过程中,基于值迭代算法的样本复杂度 PAC 上限为 O (Nlog (N/δ)/((1-γ)³ε²)),其中 N 为状态 - 动作对的数量,γ 为折扣因子,ε 表示动作价值函数的 ε- 最优估计,δ 为概率。同时证明了在任何强化学习算法中,基于每个状态 - 动作对估计最优动作值函数的样本复杂度下限为 Θ(Nlog (N/δ)/((1-γ)³ε²)),该上限和下限在 N,ε、δ、1/(1-γ) 方面匹配。
Jun, 2012
马尔可夫决策过程中,奖励的功能有哪些可以精确计算和优化?我们总结了策略评估相关类的特性,给出了规划问题的新解答。同时,我们证明了只有广义平均数能够被精确优化,即使在分布式强化学习的更通用框架下也是如此。这些结果为推进马尔可夫决策过程的理论发展做出了贡献,尤其关注回报的整体特征和风险感知策略。
Oct, 2023
研究怎样使用所提出的 Loop estimator 算法优化 Policy iteration 算法中的 Policy evaluation 步骤,实现有效的、具有强大空间和收敛性的单状态 s 值计算,以精确地评估 MDP 中的状态价值。
Feb, 2020
本研究旨在提出适用于顺序决策系统的两种自适应重要性采样算法,以高效地评估罕见事件的概率。该方法基于状态依赖的提议分布与目标分布之间的 Kullback-Leibler 散度最小化,用于减少精度方面的误差和处理多峰性提议分布的问题,并将多重重要性采样应用于多种基线以显示准确性改进。
Nov, 2022