通过密度估计进行多策略评估
本文提出了一种新的离线策略估计方法,其中将重要性采样直接应用于平稳态访问分布,从而避免了现有估计器所面临的方差爆炸问题。通过仅从行为分布中采样轨迹,我们开发了一种估计密度比的新方法,并为估算问题设计了mini-max损失函数,并推导出了RKHS情况下的封闭形式解决方案。
Oct, 2018
通过结合参数化模型和非参数化模型的混合专家方法来评估强化学习中的批次离线策略,通过选择每个时间步中的模型来最小化回报误差估计,我们的方法在多个领域中优于单个模型和基于重要性采样的状态艺术评估。
May, 2019
本研究提出了一种基于较小方差的边缘重要性抽样(MIS)的算法,用以解决RL中long horizon MDP的Off-policy evaluation(OPE)问题,并表现出在多个环境中的良好表现。
Jun, 2019
该文研究了强化学习的离线策略估值问题,介绍了传统的加权重要性采样算法在时间跨度上的方差爆炸问题,提出了一种基于边缘化重要性抽样算法的新方法,并对其进行了改进,但该算法的均方误差下限仍然不能与Cramer-Rao下界达到同阶,且仅限于有限动作空间的情况。
Jan, 2020
GradientDICE 提出了一种基于Perron-Frobenius定理、采用线性函数逼近来优化不同目标的算法,解决了基于状态分布估计采样分布下密度比的凸凹问题,比GenDICE更加稳健且简洁。
Jan, 2020
本文研究了从多个日志策略进行的基于离线的评估(OPE),每个策略生成一个固定大小的数据集,即分层抽样。我们通过找到具有最小方差的多个记录器的OPE估计器来解决此困境,并建立起了分层抽样下的效率界限,并提出了一个能够实现这个界限的估计器,当给定一致的 $q$-estimates 时。同时,我们也提出了一种选择控制变量来最小化方差的假设类的方法,以防止$q$-函数的误工。广泛的实验证明了我们的方法有效利用了来自多个记录器的基于策略外数据的分层抽样。
Oct, 2020
本文主要针对利用线性函数逼似模型来评估折扣无限领域MDP中的策略的问题,研究两种广泛使用的政策评估算法(TD和TDC)最佳线性系数的预估误差所需的样本复杂度,提出了一个高可靠性收敛保证的样本复杂度上界,并且在策略内和策略外设置中都达到了最优容差级别依赖,同时,通过显示与问题相关的量,表明在策略内设置中,我们的上界与关键问题参数的Minimax下界相匹配,包括特征映射的选择和问题维数。
May, 2023
该研究调查了在线情境决策问题的离线公式化,其目标是利用在行为策略下收集的过往互动来评估、选择和学习新的、潜在更好性能的策略。通过采用悲观主义的原则构建对策略最坏情况性能的上限界,我们超越了点估计器,引入了对一类广泛的重要性加权风险估计器的新颖、完全经验的集中界。这些界足够一般,覆盖了大多数现有的估计器,并为新估计器的开发铺平了道路。特别地,在类别中寻求最紧密的界的追求激发了一种新的估计器(LS),该估计器对大的重要性权重进行对数平滑。LS的界证明比所有竞争者都紧,自然而然地导致改进的策略选择和学习策略。广泛的策略评估、选择和学习实验证明了LS的多样性和有利性能。
May, 2024
本研究解决了传统强化学习中针对多个目标策略的低效评估问题。通过设计特定的行为策略来减少所有目标策略估计量的方差,理论证明该方法在样本数量显著减少的情况下优于现有的在线评估方法。实验证明,该估计器在多个环境中具有更低的方差并实现了最先进的性能。
Aug, 2024