不确定性感知的离线学习

Mar, 2023

Uncertainty-Aware Off-Policy Learning

Xiaoying Zhang, Junpu Chen, Hongning Wang, Hong Xie, Hang Li

TL;DR本研究通过显式建模不确定性，并提出一种不确定性感知的倾向得分估计器（UIPS），可改进离线策略优化，实验结果表明其比现有方法更具有样本效益。

Abstract

off-policy learning, referring to the procedure of policy optimization with access only to logged feedback data, has shown importance in various real-world applications, such as search engines, recommender system

off-policy learning logging policy policy optimization inverse propensity score estimator sample efficiency

发现论文，激发创造

面向运行时不确定性的鲁棒离线学习

论文提出了一种针对运行时不确定性的离线评估方法，该方法允许所得的估算器不仅对预期中的运行时不确定性具有鲁棒性，还对观察到的和意外的运行时不确定性具有鲁棒性，并且有效地证明其在仿真和现实世界在线实验中的鲁棒性。

Feb, 2022

学习排序的悲观离线策略优化

本文研究基于数据采集的 “离线学习” 在推荐系统中的应用，提出了基于点击模型的悲观离线排序学习方法，经过实验和分析表明其优越性和通用性。

Jun, 2022

离线推荐系统在未观察到的混杂下的评估

此研究聚焦在推荐系统中存在未观察到的混淆因素时进行离线政策估计，强调了由于混淆因素导致的统计偏差问题，并探讨了可能的研究方向以减轻其影响。

Sep, 2023

多样化用户行为下排名策略的离线评估

该研究提出了自适应 IPS（AIPS）的方法来解决 IPS 方法在排名设置中应用的巨大方差问题，还探讨了用户行为多样性的影响。该方法极大地提高了排名系统的 OPE 有效性。

Jun, 2023

基于模拟策略的非珂环境下评估和学习记录型匪徒反馈反馈数据：通过替代策略减少误差

本文介绍了一种新的名为 “最大似然反向倾向评分（MLIPS）” 的方法，用于从批量日志二手反馈中学习。与现有方法相比，MLIPS 不仅具有渐近无偏性，而且具有更小的均方根误差，表现出更好的性能。

Aug, 2018

使用多个记录器生成的日志赌器反馈进行有效评估

本文研究了如何利用历史数据来预测目标策略的性能，并提出了两种替代方法，相比于传统方法，能够更准确地评估交互式系统的新政策。

Mar, 2017

基于已记录的人类反馈的离线策略评估

从人类反馈中学习一直是人工智能和机器学习领域的重要进展。本文专注于从记录的人类反馈中评估新模型的政策价值，并提出了模型为基础和模型无关的估计器以及优化方法。我们分析了估计器的无偏性，并进行了实证评估，证明我们的估计器可预测评估政策的绝对值、对其进行排名和优化。

Jun, 2024

离线学习的指数平滑

本文提出了一种对 IPS 进行正则化的方法，并推导出了一个可扩展的双边 PAC-Bayes 泛化界限，该界限适用于标准 IPS，证明了正则化 IPS 的实用性以及性能优越性，并提出了一种可以不需要正则化的区分情形。

May, 2023

针对离线策略评估的策略自适应估计器选择

本研究首次探讨了针对真实数据的估计器选择问题，并提出了一种自适应的估计器选择方法，该方法利用可用日志数据适当地子采样并构建伪策略，显着提高了估计器的准确性。

Nov, 2022

如何在近端策略优化中实现不确定性估计

该研究提出了 Actor-Critic RL 算法的不确定性和 OOD 状态的定义，使用多种不确定性估计方法，展示不同的 OOD 检测性能，并提出了一种 Pareto 优化问题的解决方案，应用 Masksembles 方法成功的平衡了奖励和 OOD 检测性能。

Oct, 2022