Oct, 2023

半离线策略评估的反事实增强重要性采样

TL;DR在高风险领域应用强化学习中,使用观察数据进行定量和定性评估可以帮助从业者了解新策略的泛化性能。然而,这种离线数据评估受到困限,因为离线数据可能无法反映由新策略应用导致的分布偏移。本研究中,我们提出了一种半离线评估框架,作为离线和在线评估之间的中间步骤,其中人工用户提供未观察到的反事实轨迹的注释。我们设计了一族基于重要性采样和新颖加权方案的离线数据评估估计器,其能够纳入反事实注释而不引入额外偏差。通过理论分析,我们展示了该方法在减少偏差和方差方面相对于标准重要性采样估计器的潜在优势。在一系列概念验证实验中,涉及赌博机和医疗模拟器,我们证明了我们的方法优于纯离线重要性采样估计器,并且对于不完美的注释具有鲁棒性。结合人性化的注释收集策略,我们的框架可以实现强化学习在高风险领域的应用。