重要性加权的线下学习方法
该研究考虑在上下文匹配机器学习算法的偏离策略评估中,提出了一种新的方法 —— 基于自归一化重要性权重估算目标策略的价值下界,并在合成和实际数据集上测试表明该方法可获得更优越的策略,包括更紧密的置信区间和选择的质量。
Jun, 2020
该研究调查了在线情境决策问题的离线公式化,其目标是利用在行为策略下收集的过往互动来评估、选择和学习新的、潜在更好性能的策略。通过采用悲观主义的原则构建对策略最坏情况性能的上限界,我们超越了点估计器,引入了对一类广泛的重要性加权风险估计器的新颖、完全经验的集中界。这些界足够一般,覆盖了大多数现有的估计器,并为新估计器的开发铺平了道路。特别地,在类别中寻求最紧密的界的追求激发了一种新的估计器(LS),该估计器对大的重要性权重进行对数平滑。LS 的界证明比所有竞争者都紧,自然而然地导致改进的策略选择和学习策略。广泛的策略评估、选择和学习实验证明了 LS 的多样性和有利性能。
May, 2024
提出了一种新的离线策略评估器,能够同时正确地结合重要性加权、双重稳健评估和非平稳策略评估方法,控制偏差 - 方差权衡并降低方差,并成功地将之前的方法统一起来,实现了对实验学习问题信息的更有效利用。
Oct, 2012
本研究讨论在上下文幸存者模型下自动化决策系统的离线学习问题,提出了一种通过策略改进和正则化来解决 IPWE 中参数估计不准的问题的方法。实验证明,该方法在无概率记录情况下比目前最先进的 CE 损失更准确,而在有概率记录的情况下,可以帮助我们排除混淆变量或模型规范化失误。
Jan, 2019
通过引入一种全面的 PAC-Bayesian 框架来研究规范化重要性权重,我们提出了一个可验证的 PAC-Bayesian 泛化界限,该界限广泛适用于常见的重要性权重规范化方法,从而在单个框架内进行比较。我们的实证结果挑战了常见的认知,证明了标准的 IW 规范化技术的有效性。
Jun, 2024
本文通过自适应加权控制方差,改进了重复鲁棒估计器,并且使用合成数据和公开基准测试提供了经验证据,相较于现有方案,我们的估计器具有更高的精确性和推论属性。
Jun, 2021
在高风险领域应用强化学习中,使用观察数据进行定量和定性评估可以帮助从业者了解新策略的泛化性能。然而,这种离线数据评估受到困限,因为离线数据可能无法反映由新策略应用导致的分布偏移。本研究中,我们提出了一种半离线评估框架,作为离线和在线评估之间的中间步骤,其中人工用户提供未观察到的反事实轨迹的注释。我们设计了一族基于重要性采样和新颖加权方案的离线数据评估估计器,其能够纳入反事实注释而不引入额外偏差。通过理论分析,我们展示了该方法在减少偏差和方差方面相对于标准重要性采样估计器的潜在优势。在一系列概念验证实验中,涉及赌博机和医疗模拟器,我们证明了我们的方法优于纯离线重要性采样估计器,并且对于不完美的注释具有鲁棒性。结合人性化的注释收集策略,我们的框架可以实现强化学习在高风险领域的应用。
Oct, 2023
提出了一个基于重要性权重收缩的新框架,用于设计背景依赖赌博机的估算器,得到了三个估算器,包括一个新的收缩估算器和第一个用于组合行动集的收缩估算器,并在基准问题中进行了广泛的实验,表明该估算器高度适应性,并且通常优于现有的方法。
Jul, 2019