BriefGPT.xyz
Ask
alpha
关键词
off-policy estimation
搜索结果 - 6
离线推荐系统在未观察到的混杂下的评估
此研究聚焦在推荐系统中存在未观察到的混淆因素时进行离线政策估计,强调了由于混淆因素导致的统计偏差问题,并探讨了可能的研究方向以减轻其影响。
PDF
10 months ago
低秩 MDP 中的密度特征强化学习
这篇论文研究了具有低秩转移矩阵的 MDPs,尤其是密度特征的样本高效学习,提出了一种算法来处理非勘探性数据的离线场景和逐层构建勘探数据分布的在线算法。
PDF
a year ago
AAAI
高置信度离线(或反事实)方差估计
本文研究了在先前政策数据的基础上提出新政策的高置信度保障及其在高风险应用中同样重要的回报方差的高置信度保障的离线估计和界定问题。
PDF
3 years ago
ICLR
随机延迟的强化学习
研究分析了随机延迟环境中的多步价值估计问题,提出了一种基于 Soft Actor-Critic 的延迟校正 Actor-Critic 算法来解决,实验证明其在 MuJoCo 连续控制环境中具有显著的性能优势。
PDF
4 years ago
ICLR
无限时间步强化学习的黑盒离线评估
本文提出了一种基于 Reproducing Kernel Hilbert Spaces(RKHS)的新估计器,用于解决长远时间内的 off-policy 估计问题,其不需要对行为策略的知识或基于其改进的数据进行抽样,并提出了一种可以消除当前
→
PDF
4 years ago
NIPS
打破视野的诅咒:无穷视野离线估计
本文提出了一种新的离线策略估计方法,其中将重要性采样直接应用于平稳态访问分布,从而避免了现有估计器所面临的方差爆炸问题。通过仅从行为分布中采样轨迹,我们开发了一种估计密度比的新方法,并为估算问题设计了 mini-max 损失函数,并推导出了
→
PDF
6 years ago
Prev
Next