一致的在线反事实评估

Feb, 2017

Consistent On-Line Off-Policy Evaluation

Assaf Hallak, Shie Mannor

TL;DR本文提出了一种称为 COP-TD（λ，β）的算法，该算法可以提高在线行为评估（OPE）的表现，减少偏差，并消除行为和目标策略之间的差异，并且在应用函数近似时收敛到与使用 lambda 策略相同的结果。同时，这个算法也和已有算法相比取得了更好的结果。

Abstract

The problem of on-line off-policy evaluation (OPE) has been actively studied in the last decade due to its importance both as a stand-alone problem and as a module in a policy improvement scheme. However, most temporal

on-line off-policy evaluation temporal difference convergence limit behavior and target policies function approximation

发现论文，激发创造

强化学习离线策略评估中的近最优可证明一致收敛

该研究旨在解决强化学习中离线策略评估问题，通过同时评估策略类别中的所有策略，实现一致收敛，并获得了多种全局 / 局部策略类别的近乎最优误差界限。

Jul, 2020

一种收敛的离策略时序差分算法

本文研究了强化学习中的一个重要问题，即如何在不同策略下生成数据样本并使用线性函数逼近算法进行预测，我们提出了一种基于在线学习的算法，通过引入惩罚项确保迭代的收敛性，并通过数值实验验证了算法的有效性。

Nov, 2019

$Δ ext {-}{m OPE}$：使用一对策略进行离策略估计

以离线数据为基础，离策略为核心框架，使用逆概率估计和其扩展方法提出 Delta-OPE 方法，并引入优化效率的方差最优加性控制变量，实验结果表明这些方法显著提高了评估和学习的性能。

May, 2024

引导协变移位进行深度强化学习的离线策略

本文介绍了一种针对强化学习中离线学习的校正方法（COP-TD），并通过引入折扣因子解决了非线性函数近似中的问题，进一步分析了折扣 COP-TD 并提出了一种在线的软归一化惩罚，此方法在 Atari 视频游戏中比软归一化惩罚取得了更好的实际效果。

Jan, 2019

马尔可夫决策过程中的一致离线评估

提出了一种基于符合预测的 OPE 方法，可以在给定的一定置信水平下输出包含目标策略真实奖励的区间，并通过不同的方法处理由于目标策略和行为策略之间差异导致的分布偏移，并在保持相同置信水平的情况下，相对于现有方法降低区间长度。

Apr, 2023

通过规则化的定向学习实现更高效的离线策略评估

本文介绍了基于因果推断的目标最大似然估计原理所提出的新型双重稳健的评估方法和多种方差减少技术，能够在多种强化学习环境和各种模型规范级别下比现有评估方法都能表现出更好的性能

Dec, 2019

实用的线性时间差分学习研究

本文介绍了两种混合 TD 策略评估算法，并通过实证比较得出哪种线性 TD 方法在不同情况下应该优先使用及实际应用的具体建议。

Feb, 2016

反步时间差分学习

本文从纯控制理论的角度提供了对各种纠正离策略误差 TD 学习算法（包括 GTD 和 TDC）的统一视角，并提出了一种基于后掠技术的新的收敛算法，最终在标准 TD-learning 不稳定的环境中实验证实了该算法的收敛性。

Feb, 2023

双重不均匀环境下的离线评估

本篇文章提出了一种支持离线强化学习策略评估的新框架，该框架通过提出一种动态因子模型来处理强化学习中的双不均性，并在该框架下开发了一种同时支持基于模型和无模型方法的策略评估方法。与现有方法相比，该方法不仅假设具有统计学意义，也表现出更好的性能。

Jun, 2023

主动离线策略选择

本文提出了一种新颖的顺序决策方法 —— 主动离线策略选择，该方法结合了在线交互和记录数据，利用基于贝叶斯优化和策略相似性的内核函数，通过多个基准测试，包括实际机器人应用，证明该方法改进了最新的离线策略评估估计和纯在线策略评估，解决了缺乏在线交互数据的策略选择问题。

Jun, 2021