May, 2024

OPERA:多个估计器加权汇总的离线自动策略评估

TL;DR提出了一个新的、自适应混合使用一组离线策略评估器的算法,该算法不依赖于显式选择,并证明了该评估器对政策评估具有一致性和几个可取的属性。此外,还证明了与其他方法相比,该评估器可以在医疗保健和机器人技术方面选择更高性能的策略,为离线强化学习中的通用、估计器不可知的离线策略评估框架的易用性改进做出了贡献。