无重要性采样比率的多步非策略学习
本文研究了基于离线数据的深度强化学习算法,提出了一种新的策略相似度度量方法来提高算法的采样效率和泛化能力,并且证明了该方法可以实现安全的离线学习。实验证明,该方法相较于其他竞争算法在大多数情况下能够更高效地提高学习效率。
Aug, 2022
本文提出了一种基于 Reproducing Kernel Hilbert Spaces(RKHS)的新估计器,用于解决长远时间内的 off-policy 估计问题,其不需要对行为策略的知识或基于其改进的数据进行抽样,并提出了一种可以消除当前做法局限性的解决方案。
Mar, 2020
本文分析了在线性函数逼近、离策略学习和自举的 “致命三角” 场景中的多步 TD 学习算法,并证明了当采样周期 n 足够大时,n 步 TD 学习算法收敛到一个解。基于这些发现,提出并分析了两种 n 步 TD 学习算法,这些算法可以视为梯度和控制理论算法的无模型强化学习对应物。
Feb, 2024
本文主要针对利用线性函数逼似模型来评估折扣无限领域 MDP 中的策略的问题,研究两种广泛使用的政策评估算法(TD 和 TDC)最佳线性系数的预估误差所需的样本复杂度,提出了一个高可靠性收敛保证的样本复杂度上界,并且在策略内和策略外设置中都达到了最优容差级别依赖,同时,通过显示与问题相关的量,表明在策略内设置中,我们的上界与关键问题参数的 Minimax 下界相匹配,包括特征映射的选择和问题维数。
May, 2023
基于强化学习的方法在现实世界的机器人上训练和部署策略是常常样本低效的,因此本论文提出了一种新方法,通过结合模拟器和真实世界的离线数据来评估任何策略的真实世界性能,该方法使用了边际化重要性采样的框架,通过在模拟器中引入目标策略的占据情况作为中间变量,并将密度比率学习为两个可以单独学习的项的乘积,从而解决了大密度比率和间接监督的问题。通过在 Sim2Sim 环境以及 Sim2Real 任务中的验证实验,结果表明该方法能够在多个 Sim2Sim 间隙、目标策略和离线数据收集策略上得到很好的推广效果。
Sep, 2023
本文提出一种新的,无模型的策略搜索算法,POIS,它适用于基于动作和基于参数的设置,可在连续控制任务中有效地解决强化学习问题,通过离线优化新的轨迹批次来定义一个替代目标函数,并使用高置信度界限来解决估计的目标函数方差问题。
Sep, 2018
研究在线预测学习的问题,讨论利用新的目标函数进行的非固定、非线性函数近似的脱机学习的关键技能,提供了两个具有挑战性的微观世界中的实证研究结果,总结了脱机学习的相关方法,提供了新的见解,使从业者能够成功应用于大规模应用。
Nov, 2018
评估折扣马尔可夫决策过程中,使用线性函数逼近的时序差异 (TD) 方法的性能限界,我们证明,使用通用且独立于实例的步长算法,结合 Polyak-Ruppert 尾部平均,可以获得接近最优的方差和偏差项,同时给出了相应的样本复杂性限界。
Oct, 2023