BriefGPT.xyz
Ask
alpha
关键词
target policy
搜索结果 - 3
马尔可夫决策过程中的一致离线评估
提出了一种基于符合预测的 OPE 方法,可以在给定的一定置信水平下输出包含目标策略真实奖励的区间,并通过不同的方法处理由于目标策略和行为策略之间差异导致的分布偏移,并在保持相同置信水平的情况下,相对于现有方法降低区间长度。
PDF
a year ago
强化学习中有用的辅助任务是什么:研究目标策略的影响
本研究研究探讨在强化学习中,作为表示学习的辅助任务(auxiliary tasks)的目标策略(target policy)对主任务(main task)学习的影响,实证结果表明,贪心策略的辅助任务往往有效,而在所有策略中,甚至包括均匀随机
→
PDF
2 years ago
KDD
使用多个记录器生成的日志赌器反馈进行有效评估
本文研究了如何利用历史数据来预测目标策略的性能,并提出了两种替代方法,相比于传统方法,能够更准确地评估交互式系统的新政策。
PDF
7 years ago
Prev
Next