Jun, 2024
离线策略学习中对规范化重要性采样的悲观性统一 PAC-Bayesian 研究
Unified PAC-Bayesian Study of Pessimism for Offline Policy Learning with Regularized Importance Sampling
Imad Aouali, Victor-Emmanuel Brunel, David Rohde, Anna Korba
TL;DR通过引入一种全面的 PAC-Bayesian 框架来研究规范化重要性权重,我们提出了一个可验证的 PAC-Bayesian 泛化界限,该界限广泛适用于常见的重要性权重规范化方法,从而在单个框架内进行比较。我们的实证结果挑战了常见的认知,证明了标准的 IW 规范化技术的有效性。