BriefGPT.xyz
Ask
alpha
关键词
ope estimators
搜索结果 - 2
OPERA:多个估计器加权汇总的离线自动策略评估
提出了一个新的、自适应混合使用一组离线策略评估器的算法,该算法不依赖于显式选择,并证明了该评估器对政策评估具有一致性和几个可取的属性。此外,还证明了与其他方法相比,该评估器可以在医疗保健和机器人技术方面选择更高性能的策略,为离线强化学习中的
→
PDF
a month ago
SCOPE-RL:一个用于离线强化学习和离线策略评估的 Python 库
SCOPE-RL 是一款面向离线强化学习(offline RL)、离策略评估(off-policy evaluation)和选择(selection)的全面开源 Python 软件,通过集成政策学习和评估等两个关键方面,提供了灵活和完整的离
→
PDF
7 months ago
Prev
Next