无需重要性采样的 Actor-Critic 方法的离线校正
政策梯度方法是广泛应用于具有连续动作空间的任务的强化学习算法,本研究探讨了远离策略目标和传统的在线策略目标之间的差异,并提供了首个理论分析以及条件减小差距的经验证据。
Feb, 2024
本文提出一种新的,无模型的策略搜索算法,POIS,它适用于基于动作和基于参数的设置,可在连续控制任务中有效地解决强化学习问题,通过离线优化新的轨迹批次来定义一个替代目标函数,并使用高置信度界限来解决估计的目标函数方差问题。
Sep, 2018
透过引入自适应的离策略采样方法,本文提出了一种能够改进策略梯度算法数据效率的采样方法 PROPS 去减少采样误差并通过调整旧策略的数据分布使其接近策略梯度算法的数据要求,实验证明此方法能够减少采样误差并提高策略梯度算法的数据效率。
Nov, 2023
基于强化学习的方法在现实世界的机器人上训练和部署策略是常常样本低效的,因此本论文提出了一种新方法,通过结合模拟器和真实世界的离线数据来评估任何策略的真实世界性能,该方法使用了边际化重要性采样的框架,通过在模拟器中引入目标策略的占据情况作为中间变量,并将密度比率学习为两个可以单独学习的项的乘积,从而解决了大密度比率和间接监督的问题。通过在 Sim2Sim 环境以及 Sim2Real 任务中的验证实验,结果表明该方法能够在多个 Sim2Sim 间隙、目标策略和离线数据收集策略上得到很好的推广效果。
Sep, 2023
本文提出一种改进的基于 policy gradient 的强化学习算法,通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术,提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上的实验表明,相较于标准的 policy gradient 方法,该算法能够成功可靠地使用更少的系统交互来学习解决方案。
May, 2019
该研究针对 Markov 决策过程中的离策略策略优化问题,开发了一种新颖的离策略策略梯度方法,解决了基于之前行为策略采集数据的状态分布与学习策略下的状态分布不匹配的问题,并提供了该方法的理论收敛保证和实验验证。
Apr, 2019
本文提出了一种基于 Reproducing Kernel Hilbert Spaces(RKHS)的新估计器,用于解决长远时间内的 off-policy 估计问题,其不需要对行为策略的知识或基于其改进的数据进行抽样,并提出了一种可以消除当前做法局限性的解决方案。
Mar, 2020
本文提出了一种基于时序差分学习更新的无需使用重要性采样比率来学习无政策的多步学习的算法。通过变化 TD 更新中的自举量来消除重要性采样比率,该算法使用了两个时间尺度的梯度 TD 更新以实现稳定性,而且该算法的表现优于现有算法。
Feb, 2017
本文系统地研究了深度强化学习中混合使用 on-policy 和 off-policy 更新方法,设计了一种基于控制变量方法的算法来有效结合两者,探讨了不同更新方法的优缺点和影响因素,并在多个开源深度控制测试中展示出了本算法的先进性。
Jun, 2017
为了在现实世界的系统中部署一种强化学习代理,必须对学习过程提供保证。我们研究了保守型探索问题,在此问题中,学习者必须至少能够保证其性能至少与基线策略相当好。我们提出了第一个适用于连续有限时间问题中策略优化的保守型可证明高效无模型算法。我们利用重要性抽样技术,通过算法自动生成的数据来反事实地评估保守条件。我们推导了一个遗憾界限,并且展示了在学习过程中从未违反保守约束条件的(高概率)证明。最后,我们利用这些见解,通过离策略策略评估技术构建了一般的深度强化学习保守型探索模式。我们经验证明了我们方法的有效性。
Dec, 2023