BriefGPT.xyz
Ask
alpha
关键词
sequential decision-making policy
搜索结果 - 1
OPERA:多个估计器加权汇总的离线自动策略评估
提出了一个新的、自适应混合使用一组离线策略评估器的算法,该算法不依赖于显式选择,并证明了该评估器对政策评估具有一致性和几个可取的属性。此外,还证明了与其他方法相比,该评估器可以在医疗保健和机器人技术方面选择更高性能的策略,为离线强化学习中的
→
PDF
a month ago
Prev
Next