无限时域离策略估计中的双重稳健偏差降低
研究了强化学习中 off-policy value evaluation 的问题,提出了一种将 doubly robust estimator 用于序列决策问题的方法,可以保证无偏差并且方差较低,在多个基准问题中都具有较高的准确度,并且可以作为安全策略改进的子程序。
Nov, 2015
本文针对强化学习中的离策略评估问题,提出了一种名为MRDR的更加鲁棒的Doubly Robust 估计方法,该方法通过最小化DR估计器的方差来学习模型参数,并在上下文决策和强化学习基准问题中进行评估,证明了其强一致性和渐进最优性。
Feb, 2018
本文提出了一种新的离线策略估计方法,其中将重要性采样直接应用于平稳态访问分布,从而避免了现有估计器所面临的方差爆炸问题。通过仅从行为分布中采样轨迹,我们开发了一种估计密度比的新方法,并为估算问题设计了mini-max损失函数,并推导出了RKHS情况下的封闭形式解决方案。
Oct, 2018
本研究提出了一种基于较小方差的边缘重要性抽样(MIS)的算法,用以解决RL中long horizon MDP的Off-policy evaluation(OPE)问题,并表现出在多个环境中的良好表现。
Jun, 2019
分析了新型IS方法中最流行的方法,通过有限MDP的条件蒙特卡罗视角发现,在有限MDP中,每决策的IS或固定采样IS的严格方差减少与普通IS相比没有优势。然后,提供了充分的条件,即决策或稳态估计将在有限的时间内在方差上超越IS。针对渐近时间,提出了上下界并得出充分的条件,允许普通IS和每个决策或稳态估计之间存在指数v.s.多项式差异。通过这些结果,有助于推进我们对新型IS估计器何时提高离线策略评估准确性的理解。
Oct, 2019
通过重要性抽样的估计器取有限差分式,得出了基于策略梯度的有限差分及其方差的算法,提供了一种非常通用而灵活的双重稳健策略梯度估计器,并分析了其方差、与现有估计器的比较及其效果。
Oct, 2019
该研究使用价值函数和边际重要性权重研究了最小极小化方法在离线策略评估中的应用,结合两种不同风格的方法,提出了一个特殊类型的双重稳健方法,解决了偏见问题,同时还探索了其在数据覆盖不足的离线策略优化中对探索和开发的影响。
Feb, 2020
本研究提出了基于KL散度不确定性集合的局部化双重稳健离线评估(LDR$^2$OPE)和连续双重稳健离线学习(CDR$^2$OPL)算法,用于应对观测数据的环境分布移位问题及未知倾向估计带来的方差挑战,其表现在模拟实验中得到验证,并进一步扩展到了一般的$f$-divergence不确定性集合。
Feb, 2022
我们在具有大动作空间的情境赌博设置中研究了离策略评估 (Off-Policy Evaluation,OPE)。基准估计器在严重的偏差和方差权衡中遇到困难。为了克服这些限制,我们提出了基于动作嵌入(MIPS)的边际化逆向倾向评分(Marginalized Inverse Propensity Scoring, MIPS)来减少估计器的方差。为了使估计器更准确,我们提出了MIPS的双重稳健估计器(Marginalized Doubly Robust, MDR)。理论分析表明,所提出的估计器在比MIPS更弱的假设下是无偏的,同时保持对IPS的方差减少,这是MIPS的主要优势。经验实验证实了MDR对现有估计器的卓越性。
Aug, 2023