- 基于偏好的非参数离策略深度网络评估的样本复杂性
使用深度神经网络通过学习值函数来逼近离线策略评估,从人类偏好数据中获取样本效率,而不受高数据环境维度束缚。
- 人类反馈的非策略评估
解决基于人类反馈信号的离线评估问题,引入了一种新的离线评估框架 ——OPEHF,通过发展一种基于环境知识的立体空间下的即时人类奖励重构方法,从而明显提高了对人类反馈信号的准确估计性能。
- 分布偏移感知的离策略区间估计:一种统一的误差量化框架
我们研究了基于无限时域马尔科夫决策过程的高置信度离策略评估,目标是仅使用预先收集的来自未知行为策略的离线数据建立目标策略值的置信区间。通过创新的统一误差分析,我们共同量化了建模边际化重要性权重的错误以及由抽样引起的统计不确定性这两个估计误差 - 基于分布式的离线策略评估:面向推荐系统的多项式建议
提出了一种估计多个物品推荐策略的完整离线性能分布的估计器,并确定了估计器无偏且一致的条件。通过在合成数据和基于真实世界数据(MovieLens-20M)构建的推荐模拟器上进行实证验证,结果表明相比以前的工作,在各种推荐类型的情况下,估计方差 - 具有大行动空间的离策评估的双重稳健估计方法
我们在具有大动作空间的情境赌博设置中研究了离策略评估 (Off-Policy Evaluation,OPE)。基准估计器在严重的偏差和方差权衡中遇到困难。为了克服这些限制,我们提出了基于动作嵌入 (MIPS) 的边际化逆向倾向评分 (Mar - ICML利用分解的动作空间进行脱机策略评估
通过利用分解行动空间的技术,我们提出了一种新的家族式重要性采样估计器,以减少现有 OPE 估计器的偏差和方差问题,同时保持零偏差的特性。
- KDD多样化用户行为下排名策略的离线评估
该研究提出了自适应 IPS(AIPS)的方法来解决 IPS 方法在排名设置中应用的巨大方差问题,还探讨了用户行为多样性的影响。该方法极大地提高了排名系统的 OPE 有效性。
- 双重不均匀环境下的离线评估
本篇文章提出了一种支持离线强化学习策略评估的新框架,该框架通过提出一种动态因子模型来处理强化学习中的双不均性,并在该框架下开发了一种同时支持基于模型和无模型方法的策略评估方法。与现有方法相比,该方法不仅假设具有统计学意义,也表现出更好的性能 - $K$ 最临近重采样在随机控制中的非策略评估
该论文提出了一种新的 K 最近邻重采样程序,用于在具有连续状态 - 动作空间和系统固有随机性的环境中,通过模拟轨迹来解决反事实估计问题,该算法不需要优化,可以通过基于树的最近邻搜索和并行化实现,特别适用于随机控制环境。
- ACL自学对话系统中缺陷行为的可扩展和安全修复
本文提出了一种基于历史回归事故报告的高精度数据样本的培育和利用方法,以在在线部署之前验证、保护并改进政策,解决 Off-Policy 强化学习在大规模商业设置中难以平衡政策改进和经验连续性的问题,并提高了对话系统的用户满意度。
- 非合作博弈中人类决策预测:基于模拟的脱机评估
本文研究基于自然语言的说服游戏中的 off-policy evaluation (OPE) 问题,并提出了一种利用真实交互和模拟数据相结合的深度学习训练算法,显著提高了模型性能,同时证明了真实交互和模拟数据结合是一种具有成本效益和可扩展性的 - ICML通过联合效应建模进行大动作空间的离线评估
本文提出了新的估计器 OffCEM,它基于连带效应模型(CEM),通过将重要性加权仅应用于动作池,通过基于模型的奖励估计解决了残余因果效应的问题。实验表明 OffCEM 估计器在 OPE 中具有显著的提升。
- 为离线评估学习动作嵌入
本研究提出了一种使用训练好的奖励模型输出来定义 MIPS 动作嵌入的方法,该方法可以减少 IPS 在大规模动作空间中的方差,并扩展了 MIPS 的应用范围,在合成和实际数据上都优于预定义的嵌入和标准基线模型,不需要奖励模型类的假设,并支持使 - 马尔可夫决策过程中的一致离线评估
提出了一种基于符合预测的 OPE 方法,可以在给定的一定置信水平下输出包含目标策略真实奖励的区间,并通过不同的方法处理由于目标策略和行为策略之间差异导致的分布偏移,并在保持相同置信水平的情况下,相对于现有方法降低区间长度。
- AAAI基于样本相关性的 Vanilla 模型基 Offline 强化学习的样本复杂度
研究离线强化学习中的基于模型的算法及其基于样本的复杂度。分析了具有相关性样本的场景下,基于模型的离线 RL 和基于重要性采样的离线评估样本的复杂度。提供了一种优于样本均值估计的估计器。
- 保守型脱机策略评估的幻觉对抗控制
该研究提出了一种基于不确定性感知的学习模型的保守估计方法 HAMBO,通过幻想最坏情况下的轨迹,并考虑其误差范围,从而得到给定策略性能的下界,且该方法在碳水化合物控制环境等场景中有效。
- ICLR用于脱机策略评估的变分潜在分支模型
本篇论文探讨了利用变分潜在分支模型(VLBM)学习(行动)决策过程的转移函数,并通过轨迹模拟评估其性能,表明 VLBM 优于现有 OPE 方法。
- 离线学习的安全评估:我们准备好部署了吗?
提出了一个安全评估离线学习的框架,通过近似高置信度离策略评估(HCOPE)估计在学习期间的策略性能,以在真实环境中部署之前评估新学习的策略的性能表现。
- AAAI通过状态抽象将边缘重要抽样扩展到高维状态空间
本研究提出了一种基于状态抽象的离线策略评估方法,采用较低维的状态空间可以降低重要性采样中方差的影响,提高评估准确性和鲁棒性。
- 具有通用数据生成策略的反事实学习
本文提出了用于处理全支撑和有缺陷支撑的日志策略,并证明其在样本量增加时预测收敛于反事实策略的真实表现的 off-policy evaluation 方法,并将其应用于优化在线平台的 coupon targeting policies。