本文提出了一种基于价值感知的重要性权重方法,可用于增强学习的离线预测模型,并在实验中进行了评估。
Jun, 2023
本文研究了基于离线数据的深度强化学习算法,提出了一种新的策略相似度度量方法来提高算法的采样效率和泛化能力,并且证明了该方法可以实现安全的离线学习。实验证明,该方法相较于其他竞争算法在大多数情况下能够更高效地提高学习效率。
Aug, 2022
本文提出一种新的,无模型的策略搜索算法,POIS,它适用于基于动作和基于参数的设置,可在连续控制任务中有效地解决强化学习问题,通过离线优化新的轨迹批次来定义一个替代目标函数,并使用高置信度界限来解决估计的目标函数方差问题。
Sep, 2018
在高风险领域应用强化学习中,使用观察数据进行定量和定性评估可以帮助从业者了解新策略的泛化性能。然而,这种离线数据评估受到困限,因为离线数据可能无法反映由新策略应用导致的分布偏移。本研究中,我们提出了一种半离线评估框架,作为离线和在线评估之间的中间步骤,其中人工用户提供未观察到的反事实轨迹的注释。我们设计了一族基于重要性采样和新颖加权方案的离线数据评估估计器,其能够纳入反事实注释而不引入额外偏差。通过理论分析,我们展示了该方法在减少偏差和方差方面相对于标准重要性采样估计器的潜在优势。在一系列概念验证实验中,涉及赌博机和医疗模拟器,我们证明了我们的方法优于纯离线重要性采样估计器,并且对于不完美的注释具有鲁棒性。结合人性化的注释收集策略,我们的框架可以实现强化学习在高风险领域的应用。
Oct, 2023
本研究旨在提出适用于顺序决策系统的两种自适应重要性采样算法,以高效地评估罕见事件的概率。该方法基于状态依赖的提议分布与目标分布之间的 Kullback-Leibler 散度最小化,用于减少精度方面的误差和处理多峰性提议分布的问题,并将多重重要性采样应用于多种基线以显示准确性改进。
Nov, 2022
本文研究了马尔可夫决策过程中,利用重要性采样评估不同数据生成策略预期回报的问题。通过实验,我们发现使用估计的行为策略可降低离线策略评估的平均平方误差,尤其是在具有非马尔可夫性的情况下。
Jun, 2018
基于强化学习的方法在现实世界的机器人上训练和部署策略是常常样本低效的,因此本论文提出了一种新方法,通过结合模拟器和真实世界的离线数据来评估任何策略的真实世界性能,该方法使用了边际化重要性采样的框架,通过在模拟器中引入目标策略的占据情况作为中间变量,并将密度比率学习为两个可以单独学习的项的乘积,从而解决了大密度比率和间接监督的问题。通过在 Sim2Sim 环境以及 Sim2Real 任务中的验证实验,结果表明该方法能够在多个 Sim2Sim 间隙、目标策略和离线数据收集策略上得到很好的推广效果。
Sep, 2023
本文提出了一种基于时序差分学习更新的无需使用重要性采样比率来学习无政策的多步学习的算法。通过变化 TD 更新中的自举量来消除重要性采样比率,该算法使用了两个时间尺度的梯度 TD 更新以实现稳定性,而且该算法的表现优于现有算法。
Feb, 2017
本文研究了一种重用历史轨迹的自然策略梯度方法变体,并证明了所提梯度估计器的偏差在渐近上是可以忽略的,算法收敛且重用过去的轨迹有助于提高收敛速度。我们进一步将所提估计器应用于流行的策略优化算法,如信任区域策略优化,并在经典基准测试上验证了我们的理论结果。
Mar, 2024
该论文介绍了一种名为 SIS 的基于状态的重要性采样方法,用于解决强化学习中 target policy 的评估问题,并提供了一种基于协方差测试的自动搜索算法以确定最小均方误差的可忽略状态集。实验结果表明,与传统的重要性采样、逐决策重要性采样和增量重要性采样相比,SIS 具有更小的方差和更高的精度。
Dec, 2022