Jun, 2024

离线策略学习中对规范化重要性采样的悲观性统一 PAC-Bayesian 研究

TL;DR通过引入一种全面的 PAC-Bayesian 框架来研究规范化重要性权重,我们提出了一个可验证的 PAC-Bayesian 泛化界限,该界限广泛适用于常见的重要性权重规范化方法,从而在单个框架内进行比较。我们的实证结果挑战了常见的认知,证明了标准的 IW 规范化技术的有效性。