无穷时间尺度下强化学习价值函数的统计推断

Jan, 2020

无穷时间尺度下强化学习价值函数的统计推断

Statistical Inference of the Value Function for Reinforcement Learning in Infinite Horizon Settings

C. Shi, S. Zhang, W. Lu, R. Song

TL;DR本文提出了一种基于序列 / 筛选法的行动 - 值状态函数（Q 函数）来推导策略的置信区间以及递归更新估计策略及其价值估计器的 SequentiAl 值评估（SAVE）方法，以构建无限视野设置下策略价值的置信区间。在移动健康研究的数据集上进行了实验，结果表明强化学习算法有助于改善患者的健康状况。

Abstract

reinforcement learning is a general technique that allows an agent to learn an optimal policy and interact with an environment in sequential decision making problems. The goodness of a policy is measured by its value fu

reinforcement learning confidence intervals value function sequential value evaluation mobile health studies

发现论文，激发创造

无限时间序列强化学习中具有混淆鲁棒性的策略评估

通过数据策略辅助下的敏感性模型，我们开发了一种强健的方法，针对诸如教育和医疗等批量强化学习的应用中未被观察到的变量，估计了一个无限时间阶段内给定策略值的尖锐边界。我们证明，随着我们收集更多混淆数据，我们能够收敛于尖锐的边界。虽然检查集合成员身份是一个线性规划，但支持功能是由一个困难的非凸优化问题给出的。我们基于非凸投影梯度下降方法开发了一些近似，并在实证中演示了所得到的边界。

Feb, 2020

超越动态规划

本文提出评分生命周期规划作为一个新的理论方法，它能够直接从给定状态计算出无限时间的最优动作序列，解决了强化学习中的一些问题，并在非线性最优控制方面取得了良好的效果。

Jun, 2023

有限时间价值函数的张量低秩逼近

本研究论文提出了一种非参数低秩随机算法，以近似有限时域 MDP 的价值函数。研究采用多维数组或张量表示未知的价值函数，利用从 MDP 采样得到的奖励来估计最优价值函数，并使用截断的 PARAFAC 分解设计了在线低秩算法，以恢复价值函数张量的条目。通过数值实验证明了该方法的高效性，并且低秩 PARAFAC 模型的大小以各个维度的加法方式增长。

May, 2024

强化学习中的概率推理正确实施

强化学习中，通过马尔科夫决策过程的图形模型，以概率推理的方式对各状态 - 行为对的访问概率进行研究。本研究采用贝叶斯方法，严格处理了状态 - 行为优化的后验概率，并阐明了其在马尔科夫决策过程中的流动方式。通过引入变分贝叶斯近似方法，得到了一个可行的凸优化问题，建立的策略也能有效地进行探索。该方法称为 VAPOR，与汤普森抽样、K 学习和最大熵探索有着紧密的联系。通过一些实验，展示了深度强化学习版本 VAPOR 在性能上的优势。

Nov, 2023

逆强化学习的高效概率性能界限

本文提出了一种基于贝叶斯思想的采样方法，可用于确定在反向强化学习环境下实际高置信度策略性绩效界限，并演示如何利用该界限进行风险感知的策略选择和改进。

Jul, 2017

在线估计和推断：强化学习中鲁棒政策评估

我们在强化学习中开发了一种在线鲁棒的策略评估过程，并基于其巴哈多表示建立了我们估计器的极限分布。此外，我们还开发了一种完全在线的过程，以基于渐近分布进行高效的统计推断。本文将鲁棒统计与强化学习中的统计推断联系起来，为策略评估提供了一种更多功能和可靠性的方法。最后，我们通过在真实世界的强化学习实验中进行数值实验来验证我们算法的有效性。

Oct, 2023

通用价值密度估计 —— 对模仿学习和目标条件强化学习的应用

该研究考虑了两种不同的学习方式：模仿学习和目标条件强化学习。该研究介绍了一种基于概率长期动态和期望价值函数之间联系的方法，并利用密度估计的最新进展来有效学习达到指定状态的能力。该方法不仅在目标条件强化学习方面表现高效且不会出现事后偏差问题，在模仿学习方面也达到了标准基准任务的最新样本效率。

Feb, 2020

深度反向 Q 学习与约束

提出了一种新的算法类，仅需要解决一次 MDP 就能恢复专家策略，在 Continuous state-spaces 中使用函数逼近估算相应的行动 - 价值函数，可以有效替代 (深度) Max-Entropy 算法用于自主驾驶的学习。

Aug, 2020

基于策略迭代和蒙特卡罗策略评估的强化学习收敛性

本文提出解决一种强化学习中的长期悬而未决的问题，通过使用前瞻而非简单的贪心策略迭代来提高策略，同时在表格和函数逼近设置中都提供了结果。我们证明了这种策略迭代方案收敛于最优策略。

Jan, 2023

关于价值函数和智能体 - 环境边界

本文针对强化学习中函数逼近问题的不同解决方式所带来的代理 - 环境边界界定问题，通过对 Fitted Q-Iteration 算法进行一个简单且新颖的边界不变量分析，解决了价值函数的定义不唯一的问题，并讨论了相关问题，如状态重置和蒙特卡罗树搜索等。

May, 2019