通过密度估计进行多策略评估

Mar, 2024

Multiple-policy Evaluation via Density Estimation

Yilei Chen, Aldo Pacchiano, Ioannis Ch. Paschalidis

TL;DR我们提出了一种名为CAESAR的算法，用于解决多策略评估问题，该问题目标是对K个目标策略的性能（期望总奖励）进行准确度为epsilon且至少有1-delta的概率评估。CAESAR算法通过计算近似的离线采样分布，并使用从中抽样的数据来同时估计策略值，通过生成粗略估计的目标策略的访问分布和优化离线采样分布来计算重要性加权比率，以实现较低的样本复杂度。

Abstract

In this work, we focus on the multiple-policy evaluation problem where we are given a set of $K$ target policies and the goal is to evaluate their performance (the expected total rewards) to an accuracy $\epsilon$ with probability at least $1-\delta$. We propose an algorithm named $\ma

发现论文，激发创造

打破视野的诅咒：无穷视野离线估计

本文提出了一种新的离线策略估计方法，其中将重要性采样直接应用于平稳态访问分布，从而避免了现有估计器所面临的方差爆炸问题。通过仅从行为分布中采样轨迹，我们开发了一种估计密度比的新方法，并为估算问题设计了mini-max损失函数，并推导出了RKHS情况下的封闭形式解决方案。

Oct, 2018

将参数化和非参数化模型相结合的离线策略估计

通过结合参数化模型和非参数化模型的混合专家方法来评估强化学习中的批次离线策略，通过选择每个时间步中的模型来最小化回报误差估计，我们的方法在多个领域中优于单个模型和基于重要性采样的状态艺术评估。

May, 2019

基于边际化重要性采样的强化学习最优离线评估

本研究提出了一种基于较小方差的边缘重要性抽样(MIS)的算法，用以解决RL中long horizon MDP的Off-policy evaluation(OPE)问题，并表现出在多个环境中的良好表现。

Jun, 2019

表格式强化学习非渐近有效的离线策略评估

该文研究了强化学习的离线策略估值问题，介绍了传统的加权重要性采样算法在时间跨度上的方差爆炸问题，提出了一种基于边缘化重要性抽样算法的新方法，并对其进行了改进，但该算法的均方误差下限仍然不能与Cramer-Rao下界达到同阶，且仅限于有限动作空间的情况。

Jan, 2020

GradientDICE: 重新思考广义离线估计方式下的固定值

GradientDICE 提出了一种基于Perron-Frobenius定理、采用线性函数逼近来优化不同目标的算法，解决了基于状态分布估计采样分布下密度比的凸凹问题，比GenDICE更加稳健且简洁。

Jan, 2020

多个记录策略的最优离策略评估

本文研究了从多个日志策略进行的基于离线的评估（OPE），每个策略生成一个固定大小的数据集，即分层抽样。我们通过找到具有最小方差的多个记录器的OPE估计器来解决此困境，并建立起了分层抽样下的效率界限，并提出了一个能够实现这个界限的估计器，当给定一致的 $q$-estimates 时。同时，我们也提出了一种选择控制变量来最小化方差的假设类的方法，以防止$q$-函数的误工。广泛的实验证明了我们的方法有效利用了来自多个记录器的基于策略外数据的分层抽样。

Oct, 2020

通过状态抽象将边缘重要抽样扩展到高维状态空间

本研究提出了一种基于状态抽象的离线策略评估方法，采用较低维的状态空间可以降低重要性采样中方差的影响，提高评估准确性和鲁棒性。

Dec, 2022

使用线性函数逼近进行策略评估的高概率样本复杂度

本文主要针对利用线性函数逼似模型来评估折扣无限领域MDP中的策略的问题，研究两种广泛使用的政策评估算法（TD和TDC）最佳线性系数的预估误差所需的样本复杂度，提出了一个高可靠性收敛保证的样本复杂度上界，并且在策略内和策略外设置中都达到了最优容差级别依赖，同时，通过显示与问题相关的量，表明在策略内设置中，我们的上界与关键问题参数的Minimax下界相匹配，包括特征映射的选择和问题维数。

May, 2023

悲观的脱机政策评估、选择和学习的对数平滑

该研究调查了在线情境决策问题的离线公式化，其目标是利用在行为策略下收集的过往互动来评估、选择和学习新的、潜在更好性能的策略。通过采用悲观主义的原则构建对策略最坏情况性能的上限界，我们超越了点估计器，引入了对一类广泛的重要性加权风险估计器的新颖、完全经验的集中界。这些界足够一般，覆盖了大多数现有的估计器，并为新估计器的开发铺平了道路。特别地，在类别中寻求最紧密的界的追求激发了一种新的估计器（LS），该估计器对大的重要性权重进行对数平滑。LS的界证明比所有竞争者都紧，自然而然地导致改进的策略选择和学习策略。广泛的策略评估、选择和学习实验证明了LS的多样性和有利性能。

May, 2024

强化学习中的高效多策略评估

本研究解决了传统强化学习中针对多个目标策略的低效评估问题。通过设计特定的行为策略来减少所有目标策略估计量的方差，理论证明该方法在样本数量显著减少的情况下优于现有的在线评估方法。实验证明，该估计器在多个环境中具有更低的方差并实现了最先进的性能。

Aug, 2024