本文提出解决一种强化学习中的长期悬而未决的问题,通过使用前瞻而非简单的贪心策略迭代来提高策略,同时在表格和函数逼近设置中都提供了结果。我们证明了这种策略迭代方案收敛于最优策略。
Jan, 2023
该论文提出了一种新的家族离线预测算法,通过构建一系列价值函数来实现稳定的模型迭代,算法收敛且可以有效的处理离线强化学习过程中的问题。
Jan, 2022
本文提出了一种以将价值估计映射到不同空间和将奖励信号线性分解为多个通道的方式作为基础的强化学习算法, 具有收敛性和泛化性,并可以用于处理高度变化的奖励尺度和集成学习等任务。
Mar, 2022
使用 Imitation Learning 的 Policy Gradient Extension 能够充分利用优秀的预测模型,在深度神经网络处理的机器人控制及序列预测任务上比弱化的 Reinforcement Learning 更高效、损失较小,其 IL 的理论研究展现 AggreVaTeD 比其他 RL 算法更少的样本能达到更优质的性能
Mar, 2017
本文提出了一种基于价值函数、梯度上升和指纹技术的增强学习方法,通过估计给定一组状态下多种策略的价值,实现了在策略空间直接进行梯度上升从而产生优秀的策略。实验结果表明,该方法的理论和实际效果均优于传统方法。
Feb, 2020
本文介绍了针对有限状态折扣马尔可夫决策问题的近似解法 - 政策迭代方法,重点关注基于特征聚合的方法以及它们与深度强化学习方案的关系。本文提出了原问题状态的特征并且制定了一个更小的 “聚合” 的马尔可夫决策问题,其状态与特征相关。我们讨论了这种聚合的性质和可能的实现,其中包括一种利用深度神经网络或其他计算进行特征构建的新近似政策迭代方法。我们认为,通过聚合提供的特征的非线性函数比神经网络强化学习提供的特征的线性函数更能够准确地逼近策略的成本函数,从而潜在地导致更有效的政策改进。
Apr, 2018
本研究提出一种自适应近似政策迭代 (AAPI) 学 习方案,其具有较好的理论保证,并基于在线学习技术只考虑价值函数,通过数据相关的自适应学习率和所谓的乐观损失预测相结合,可达到 $ ilde {O}(T^{2/3})$ 的遗憾上限,在许多应用领域中取得了令人瞩目的表现。
本文提出了一种改进的策略迭代算法,使用分类器代替值函数,并将策略学习作为监督学习问题进行处理,解决了通过模拟评估策略时的核心抽样问题,实验验证表明其能在反摆杆和车山等领域内实现可比较的性能提升,并显著减少计算工作量。
May, 2008
本文提出了一种基于序列 / 筛选法的行动 - 值状态函数(Q 函数)来推导策略的置信区间以及递归更新估计策略及其价值估计器的 SequentiAl 值评估(SAVE)方法,以构建无限视野设置下策略价值的置信区间。在移动健康研究的数据集上进行了实验,结果表明强化学习算法有助于改善患者的健康状况。
Jan, 2020
该研究对联邦学习框架下聚合策略进行了全面的数学收敛分析,并通过与 FedAvg 进行分类任务的比较来评估其性能,得出了新的聚合算法,该算法可以通过区分客户端贡献的价值来修改其模型架构。
May, 2022