May, 2024
悲观的脱机政策评估、选择和学习的对数平滑
Logarithmic Smoothing for Pessimistic Off-Policy Evaluation, Selection
and Learning
TL;DR该研究调查了在线情境决策问题的离线公式化,其目标是利用在行为策略下收集的过往互动来评估、选择和学习新的、潜在更好性能的策略。通过采用悲观主义的原则构建对策略最坏情况性能的上限界,我们超越了点估计器,引入了对一类广泛的重要性加权风险估计器的新颖、完全经验的集中界。这些界足够一般,覆盖了大多数现有的估计器,并为新估计器的开发铺平了道路。特别地,在类别中寻求最紧密的界的追求激发了一种新的估计器(LS),该估计器对大的重要性权重进行对数平滑。LS的界证明比所有竞争者都紧,自然而然地导致改进的策略选择和学习策略。广泛的策略评估、选择和学习实验证明了LS的多样性和有利性能。