该研究针对离线策略评估的弱点,探讨了如何通过约束动作选择减少 Bellman backup 带来的 bootstrapping error,提出了一种名为 BEAR 的实用算法,在不同的离线策略分布上都表现出较强的鲁棒性。
Jun, 2019
本文探讨了自举法在强化学习中的应用和如何提高自举法的计算效率,使用 FQE 方法进行策略评估,并用数值实验评估自举法在强化学习中的潜力。
Feb, 2021
我们在强化学习中开发了一种在线鲁棒的策略评估过程,并基于其巴哈多表示建立了我们估计器的极限分布。此外,我们还开发了一种完全在线的过程,以基于渐近分布进行高效的统计推断。本文将鲁棒统计与强化学习中的统计推断联系起来,为策略评估提供了一种更多功能和可靠性的方法。最后,我们通过在真实世界的强化学习实验中进行数值实验来验证我们算法的有效性。
Oct, 2023
本研究提出了一种新的算法 CoinDICE,用于估计目标策略的价值的置信区间,有效地解决了强化学习中关于行为无关离线评估的问题。
Oct, 2020
本文提出了一种基于纯不确定性驱动的离线策略学习算法 - 悲观引导离线学习 (PBRL),它通过引入一种 Q 函数的不确定度来量化不确定性,并以此进行悲观更新,以解决离线学习中由行为分布外数据所产生的外推误差问题。实验证明,相比现有算法,PBRL 具有更好的性能表现。
Feb, 2022
研究了强化学习中 off-policy value evaluation 的问题,提出了一种将 doubly robust estimator 用于序列决策问题的方法,可以保证无偏差并且方差较低,在多个基准问题中都具有较高的准确度,并且可以作为安全策略改进的子程序。
Nov, 2015
通过数据策略辅助下的敏感性模型,我们开发了一种强健的方法,针对诸如教育和医疗等批量强化学习的应用中未被观察到的变量,估计了一个无限时间阶段内给定策略值的尖锐边界。我们证明,随着我们收集更多混淆数据,我们能够收敛于尖锐的边界。虽然检查集合成员身份是一个线性规划,但支持功能是由一个困难的非凸优化问题给出的。我们基于非凸投影梯度下降方法开发了一些近似,并在实证中演示了所得到的边界。
Feb, 2020
本文提出了一种新的方法来预测在给定历史数据的情况下,加强学习策略的表现。通过在模型基础评估和重要性采样评估之间进行混合,提出一个基于双重稳健估计器扩展的新估计器,使得估计结果的均方误差通常比现有方法低几个数量级。
Apr, 2016
本文提出针对机器学习集成方法的正式统计推断程序,重点在于利用样本的子样本进行 U - 统计的预测,进而提供置信区间,以及作为检验功能、估计方差等应用。
Apr, 2014
本文提出了一种名为逆方差强化学习的贝叶斯框架,结合概率一致集和批次逆方差加权,采用两种互补的不确定性估计方法来更好地缓解深强化学习中嘈杂监督的负面影响,从而显著提高了离散和连续控制任务的样本效率。
Jan, 2022