基于偏好的非参数离策略深度网络评估的样本复杂性
本文旨在解决深度强化学习领域中的模型选择问题,并提出一种基于Q函数作为决策函数的正无标记(PU)分类问题的度量方法来评估离线策略评估的性能,该方法适用于具有连续动作空间和稀疏二元奖励的马尔可夫决策过程,并且在一些任务上表现优于基线算法。
Jun, 2019
本文从函数逼近和$q$函数的角度,通过最新的极小极大方法对离线策略评估(OPE)在强化学习中进行了理论刻画,并基于此结果分析了OPE的收敛速度和新的完备条件,提出了第一种在非表格环境下具有一阶效率的有限样本结果。
Feb, 2021
本研究旨在通过使用值函数的方差信息提高离线策略评估中的样本效率,其中针对非时变线性马尔可夫决策过程(MDPs),提出了VA-OPE算法,使用值函数的方差对Fitted Q-Iteration中的Bellman残差进行重新加权,并且我们展示了我们的算法比最好已知的结果实现了更紧密的误差界限。我们对行为策略和目标策略之间的分布变化进行了细致的描述,而广泛的数值实验也支持了我们的理论。
Jun, 2021
该研究针对FQE算法的超参数调优问题,提出了一种基于近似超参数选择框架的优化方法,该方法不需要超参数就可以定义一种量化且可解释的最优化标准,并验证理论误差界与实际观察的匹配。
Jan, 2022
该研究考虑使用深度卷积神经网络对强化学习的离线策略评估问题进行分析,发现通过适当选择网络大小,可以利用马尔科夫决策过程中的任何低维流形结构,获得一个高效的估计器。同时,该研究还提出一种新的逼近算法,并在数值实验中验证理论分析。
Jun, 2022
本文提出了一种利用离线数据进行偏好学习的方法,通过基于池的主动学习生成偏好查询,学习奖励函数的分布,通过离线强化学习优化相应的策略,从而使代理人能够在未显示的离线数据中学习执行新任务。
Jan, 2023
解决基于人类反馈信号的离线评估问题,引入了一种新的离线评估框架——OPEHF,通过发展一种基于环境知识的立体空间下的即时人类奖励重构方法,从而明显提高了对人类反馈信号的准确估计性能。
Oct, 2023
该研究通过引入一个OPE-tailored的状态-动作行为相似性度量并使用固定数据集来学习该度量以增加数据效率,证明了这种度量可以限制导致的OPE估计误差,并通过实证研究证明这种学习表示方法相对于其他OPE-based表示学习方法在具有挑战性的OPE任务中提高了FQE的数据效率并降低了OPE误差,该方法还可以在不同分布变化时显著减轻FQE的发散问题。
Oct, 2023
通过对直接优化偏好和基于奖励模型的策略优化的比较,该研究发现使用足够的无偏好数据进行策略优化能够显著提高性能,并且RMB-PO+方法表现最佳。
Dec, 2023