基于偏好的非参数离策略深度网络评估的样本复杂性

Oct, 2023

基于偏好的非参数离策略深度网络评估的样本复杂性

Sample Complexity of Preference-Based Nonparametric Off-Policy Evaluation with Deep Networks

Zihao Li, Xiang Ji, Minshuo Chen, Mengdi Wang

TL;DR使用深度神经网络通过学习值函数来逼近离线策略评估，从人类偏好数据中获取样本效率，而不受高数据环境维度束缚。

Abstract

A recently popular approach to solving reinforcement learning is with data from human preferences. In fact, human preference data are now used with classic →

发现论文，激发创造

离线策略评估方法（Off-Policy Evaluation）基于离线策略分类（Off-Policy Classification）

本文旨在解决深度强化学习领域中的模型选择问题，并提出一种基于Q函数作为决策函数的正无标记（PU）分类问题的度量方法来评估离线策略评估的性能，该方法适用于具有连续动作空间和稀疏二元奖励的马尔可夫决策过程，并且在一些任务上表现优于基线算法。

Jun, 2019

极小化离线强化学习的有限样本分析：完备性，快速速率和一阶效率

本文从函数逼近和$q$函数的角度，通过最新的极小极大方法对离线策略评估(OPE)在强化学习中进行了理论刻画，并基于此结果分析了OPE的收敛速度和新的完备条件，提出了第一种在非表格环境下具有一阶效率的有限样本结果。

Feb, 2021

深度离线评估的基准测试

为了推动离线学习中的评估和选择复杂政策的发展，我们提供了一套用于基准测试的数据集和策略集，旨在提供一种标准化的进展度量方式，并对现有的算法进行评估。

Mar, 2021

线性函数逼近下的方差感知离线评估

本研究旨在通过使用值函数的方差信息提高离线策略评估中的样本效率，其中针对非时变线性马尔可夫决策过程（MDPs），提出了VA-OPE算法，使用值函数的方差对Fitted Q-Iteration中的Bellman残差进行重新加权，并且我们展示了我们的算法比最好已知的结果实现了更紧密的误差界限。我们对行为策略和目标策略之间的分布变化进行了细致的描述，而广泛的数值实验也支持了我们的理论。

Jun, 2021

拟合Q评估的超参数选择方法及误差保证

该研究针对FQE算法的超参数调优问题，提出了一种基于近似超参数选择框架的优化方法，该方法不需要超参数就可以定义一种量化且可解释的最优化标准，并验证理论误差界与实际观察的匹配。

Jan, 2022

使用深度网络对低维流形上的非参数离策略评估进行样本复杂度分析

该研究考虑使用深度卷积神经网络对强化学习的离线策略评估问题进行分析，发现通过适当选择网络大小，可以利用马尔科夫决策过程中的任何低维流形结构，获得一个高效的估计器。同时，该研究还提出一种新的逼近算法，并在数值实验中验证理论分析。

Jun, 2022

离线基于偏好的奖励学习的基准和算法

本文提出了一种利用离线数据进行偏好学习的方法，通过基于池的主动学习生成偏好查询，学习奖励函数的分布，通过离线强化学习优化相应的策略，从而使代理人能够在未显示的离线数据中学习执行新任务。

Jan, 2023

人类反馈的非策略评估

解决基于人类反馈信号的离线评估问题，引入了一种新的离线评估框架——OPEHF，通过发展一种基于环境知识的立体空间下的即时人类奖励重构方法，从而明显提高了对人类反馈信号的准确估计性能。

Oct, 2023

基于状态-动作相似性的离线策略评估

该研究通过引入一个OPE-tailored的状态-动作行为相似性度量并使用固定数据集来学习该度量以增加数据效率，证明了这种度量可以限制导致的OPE估计误差，并通过实证研究证明这种学习表示方法相对于其他OPE-based表示学习方法在具有挑战性的OPE任务中提高了FQE的数据效率并降低了OPE误差，该方法还可以在不同分布变化时显著减轻FQE的发散问题。

Oct, 2023

RLHF中的策略优化：偏离偏好数据的影响

通过对直接优化偏好和基于奖励模型的策略优化的比较，该研究发现使用足够的无偏好数据进行策略优化能够显著提高性能，并且RMB-PO+方法表现最佳。

Dec, 2023