策略迭代的概率采样法近似实现
本文提出解决一种强化学习中的长期悬而未决的问题,通过使用前瞻而非简单的贪心策略迭代来提高策略,同时在表格和函数逼近设置中都提供了结果。我们证明了这种策略迭代方案收敛于最优策略。
Jan, 2023
该研究针对强化学习参数的设计空间进行了设计空间探索,提出了基于自动调谐器的序数回归方法,可以加速收敛并实现 1.82 倍的峰值加速度和 1.48 倍的平均加速度。
Mar, 2023
本文提出了一种新的算法,采用样本内策略迭代技术,通过在最小化数据收集策略的偏差的同时优化控制策略,可以显著提高离线强化学习中行为规则方法的性能,从而实现对以前收集的数据的有效控制。最后,基于 D4RL 基准测试的实验结果表明,该算法在大多数任务上优于以前的最先进方法。
Jun, 2023
本研究提出了适应于分层控制任务的一种新型学习算法 Value Iteration with Negative Sampling (VINS),具有自我校正的策略,可解决 Teacher 数据样本偏移及学习效率低下等问题,进而可以用于初始值的强化学习中。
Jul, 2019
该研究通过融合强化学习和模仿学习的方法,利用自适应的策略选择和梯度优化算法,在稀疏奖励场景下有效提高样本效率,并在多个基准领域中展现出卓越的性能。
Oct, 2023
本研究提出一种自适应近似政策迭代 (AAPI) 学 习方案,其具有较好的理论保证,并基于在线学习技术只考虑价值函数,通过数据相关的自适应学习率和所谓的乐观损失预测相结合,可达到 $ ilde {O}(T^{2/3})$ 的遗憾上限,在许多应用领域中取得了令人瞩目的表现。
Feb, 2020
本文研究了基于离线数据的深度强化学习算法,提出了一种新的策略相似度度量方法来提高算法的采样效率和泛化能力,并且证明了该方法可以实现安全的离线学习。实验证明,该方法相较于其他竞争算法在大多数情况下能够更高效地提高学习效率。
Aug, 2022
研究大规模关系型马尔科夫决策过程(MDP)的政策选择方法,考虑一种近似政策迭代(API) 的变体,用学习步骤在政策空间中替换通常的值函数学习步骤,介绍一个关系型政策语言和相应的学习器,以及基于随机游走的面向目标的规划域的自举例行程序,实验结果表明,该系统能够解决一系列的规划域和其随机变体,但提出了一些局限性建议未来工作。
Sep, 2011
本文介绍了一种精确和近似动态规划的方法即 λ- 策略迭代,并讨论了基于模拟的费用函数逼近中的偏差和探索问题。此外,讨论了多种基于此方法的实现,其中一种实现是基于一种新的模拟方案,称为几何采样。
Jul, 2015