论文提出了一种针对运行时不确定性的离线评估方法,该方法允许所得的估算器不仅对预期中的运行时不确定性具有鲁棒性,还对观察到的和意外的运行时不确定性具有鲁棒性,并且有效地证明其在仿真和现实世界在线实验中的鲁棒性。
Feb, 2022
本文研究基于数据采集的 “离线学习” 在推荐系统中的应用,提出了基于点击模型的悲观离线排序学习方法,经过实验和分析表明其优越性和通用性。
Jun, 2022
此研究聚焦在推荐系统中存在未观察到的混淆因素时进行离线政策估计,强调了由于混淆因素导致的统计偏差问题,并探讨了可能的研究方向以减轻其影响。
Sep, 2023
该研究提出了自适应 IPS(AIPS)的方法来解决 IPS 方法在排名设置中应用的巨大方差问题,还探讨了用户行为多样性的影响。该方法极大地提高了排名系统的 OPE 有效性。
Jun, 2023
本文介绍了一种新的名为 “最大似然反向倾向评分(MLIPS)” 的方法,用于从批量日志二手反馈中学习。与现有方法相比,MLIPS 不仅具有渐近无偏性,而且具有更小的均方根误差,表现出更好的性能。
Aug, 2018
本文研究了如何利用历史数据来预测目标策略的性能,并提出了两种替代方法,相比于传统方法,能够更准确地评估交互式系统的新政策。
Mar, 2017
从人类反馈中学习一直是人工智能和机器学习领域的重要进展。本文专注于从记录的人类反馈中评估新模型的政策价值,并提出了模型为基础和模型无关的估计器以及优化方法。我们分析了估计器的无偏性,并进行了实证评估,证明我们的估计器可预测评估政策的绝对值、对其进行排名和优化。
Jun, 2024
本文提出了一种对 IPS 进行正则化的方法,并推导出了一个可扩展的双边 PAC-Bayes 泛化界限,该界限适用于标准 IPS,证明了正则化 IPS 的实用性以及性能优越性,并提出了一种可以不需要正则化的区分情形。
May, 2023
本研究首次探讨了针对真实数据的估计器选择问题,并提出了一种自适应的估计器选择方法,该方法利用可用日志数据适当地子采样并构建伪策略,显着提高了估计器的准确性。
Nov, 2022
该研究提出了 Actor-Critic RL 算法的不确定性和 OOD 状态的定义,使用多种不确定性估计方法,展示不同的 OOD 检测性能,并提出了一种 Pareto 优化问题的解决方案,应用 Masksembles 方法成功的平衡了奖励和 OOD 检测性能。
Oct, 2022