在线估计和推断：强化学习中鲁棒政策评估

Oct, 2023

在线估计和推断：强化学习中鲁棒政策评估

Online Estimation and Inference for Robust Policy Evaluation in Reinforcement Learning

Weidong Liu, Jiyuan Tu, Yichen Zhang, Xi Chen

TL;DR我们在强化学习中开发了一种在线鲁棒的策略评估过程，并基于其巴哈多表示建立了我们估计器的极限分布。此外，我们还开发了一种完全在线的过程，以基于渐近分布进行高效的统计推断。本文将鲁棒统计与强化学习中的统计推断联系起来，为策略评估提供了一种更多功能和可靠性的方法。最后，我们通过在真实世界的强化学习实验中进行数值实验来验证我们算法的有效性。

Abstract

Recently, reinforcement learning has gained prominence in modern statistics, with policy evaluation being a key component. Unlike traditional machine learning literature on this topic, our work places emphasis on

reinforcement learning statistical inference robust statistics policy evaluation parameter estimates

发现论文，激发创造

强化学习的高效离线策略评估

本文提出了一种新的方法来预测在给定历史数据的情况下，加强学习策略的表现。通过在模型基础评估和重要性采样评估之间进行混合，提出一个基于双重稳健估计器扩展的新估计器，使得估计结果的均方误差通常比现有方法低几个数量级。

Apr, 2016

强化学习的双重稳健性离线价值评估

研究了强化学习中 off-policy value evaluation 的问题，提出了一种将 doubly robust estimator 用于序列决策问题的方法，可以保证无偏差并且方差较低，在多个基准问题中都具有较高的准确度，并且可以作为安全策略改进的子程序。

Nov, 2015

分布式强化学习的估计与推断

本研究从统计效率的角度研究了分布式强化学习，重点研究了分布式策略评估问题，通过使用确定等价方法构建了一个估计器以解决样本效率问题，并研究了估计器的渐近行为。

Sep, 2023

一种鲁棒逆强化学习的贝叶斯方法

我们提出了一种贝叶斯方法来进行离线模型基于的逆向强化学习 (IRL)。该方法通过同时估计专家的奖励函数和对环境动态的主观模型，与现有的离线模型基于 IRL 方法有所不同。我们利用一类先验分布，参数化了专家对环境的模型准确性，以此开发出高维环境中估计专家奖励和主观动态的高效算法。我们的分析揭示了一个新的观点，即当先验认为专家对环境有高度准确的模型时，估计出的策略表现出了稳健的性能。我们在 MuJoCo 环境中验证了这个观察结果，并展示了我们的算法在离线 IRL 问题上优于最先进的方法。

Sep, 2023

离线策略评估中的统计自举法用于不确定性估计

本文研究了使用统计自助法来校准有偏策略价值估计结果得到置信区间的潜力，并提出了适用于实际情况的机制以减轻其影响。结果显示该方法在各种条件下能够产生准确的置信区间。

Jul, 2020

分布式强化学习中的统计和样本

本文介绍了利用统计估计回报分布的方法来设计和分析分布式强化学习算法，提出了一种新算法 EDRL，同时介绍了 ER-DQN，将 EDRL 应用在 Atari-57 游戏集上进行了评估。

Feb, 2019

自适应数据采集的增强学习离线策略评估

本文针对相对于通常的数据收集方式更加广义的数据收集方式下离线 RL 算法的理论保证问题进行研究，并探讨 TMIS Offline Policy Evaluation 在 tabular MDPs 下的最小最优保证问题及实验分析。

Jun, 2023

无限时间序列强化学习中具有混淆鲁棒性的策略评估

通过数据策略辅助下的敏感性模型，我们开发了一种强健的方法，针对诸如教育和医疗等批量强化学习的应用中未被观察到的变量，估计了一个无限时间阶段内给定策略值的尖锐边界。我们证明，随着我们收集更多混淆数据，我们能够收敛于尖锐的边界。虽然检查集合成员身份是一个线性规划，但支持功能是由一个困难的非凸优化问题给出的。我们基于非凸投影梯度下降方法开发了一些近似，并在实证中演示了所得到的边界。

Feb, 2020

分布鲁棒优化有效地解决离线强化学习问题

本文利用不确定性集来直接建模转移内核的不确定性，并采用分布稳健优化方法，通过优化在不确定性集中的最坏情况下的性能来解决先前研究所面临的有限数据和分布转移的问题。

May, 2023

通过不确定性估计实现高样本利用率的深度强化学习

本文提出了一种名为逆方差强化学习的贝叶斯框架，结合概率一致集和批次逆方差加权，采用两种互补的不确定性估计方法来更好地缓解深强化学习中嘈杂监督的负面影响，从而显著提高了离散和连续控制任务的样本效率。

Jan, 2022