策略迭代的概率采样法近似实现

May, 2008

Rollout Sampling Approximate Policy Iteration

Christos Dimitrakakis, Michail G. Lagoudakis

TL;DR本文提出了一种改进的策略迭代算法，使用分类器代替值函数，并将策略学习作为监督学习问题进行处理，解决了通过模拟评估策略时的核心抽样问题，实验验证表明其能在反摆杆和车山等领域内实现可比较的性能提升，并显著减少计算工作量。

Abstract

Several researchers have recently investigated the connection between reinforcement learning and classification. We are motivated by proposals of approximate →

reinforcement learning classification policy iteration multi-armed bandit machine simulation

发现论文，激发创造

基于策略迭代和蒙特卡罗策略评估的强化学习收敛性

本文提出解决一种强化学习中的长期悬而未决的问题，通过使用前瞻而非简单的贪心策略迭代来提高策略，同时在表格和函数逼近设置中都提供了结果。我们证明了这种策略迭代方案收敛于最优策略。

Jan, 2023

基于强化学习的路径规划：一种策略迭代方法

该研究针对强化学习参数的设计空间进行了设计空间探索，提出了基于自动调谐器的序数回归方法，可以加速收敛并实现 1.82 倍的峰值加速度和 1.48 倍的平均加速度。

Mar, 2023

离线强化学习中的样本内策略迭代

本文提出了一种新的算法，采用样本内策略迭代技术，通过在最小化数据收集策略的偏差的同时优化控制策略，可以显著提高离线强化学习中行为规则方法的性能，从而实现对以前收集的数据的有效控制。最后，基于 D4RL 基准测试的实验结果表明，该算法在大多数任务上优于以前的最先进方法。

Jun, 2023

从负采样演示中学习自我校正策略与价值函数

本研究提出了适应于分层控制任务的一种新型学习算法 Value Iteration with Negative Sampling (VINS)，具有自我校正的策略，可解决 Teacher 数据样本偏移及学习效率低下等问题，进而可以用于初始值的强化学习中。

Jul, 2019

融合模仿学习和强化学习以实现鲁棒的策略改进

该研究通过融合强化学习和模仿学习的方法，利用自适应的策略选择和梯度优化算法，在稀疏奖励场景下有效提高样本效率，并在多个基准领域中展现出卓越的性能。

Oct, 2023

自适应近似策略迭代

本研究提出一种自适应近似政策迭代 (AAPI) 学习方案，其具有较好的理论保证，并基于在线学习技术只考虑价值函数，通过数据相关的自适应学习率和所谓的乐观损失预测相结合，可达到 $ ilde {O}(T^{2/3})$ 的遗憾上限，在许多应用领域中取得了令人瞩目的表现。

Feb, 2020

无需重要性采样的 Actor-Critic 方法的离线校正

本文研究了基于离线数据的深度强化学习算法，提出了一种新的策略相似度度量方法来提高算法的采样效率和泛化能力，并且证明了该方法可以实现安全的离线学习。实验证明，该方法相较于其他竞争算法在大多数情况下能够更高效地提高学习效率。

Aug, 2022

稀缺经验学习

使用似然比估计的一族算法在估计和优化阶段利用经验数据来优化策略，从而更高效地解决部分可观察的强化学习问题，该算法在实验中表现良好。

Apr, 2002

带政策语言偏差的近似策略迭代：解决关系马尔可夫决策过程

研究大规模关系型马尔科夫决策过程（MDP）的政策选择方法，考虑一种近似政策迭代（API）的变体，用学习步骤在政策空间中替换通常的值函数学习步骤，介绍一个关系型政策语言和相应的学习器，以及基于随机游走的面向目标的规划域的自举例行程序，实验结果表明，该系统能够解决一系列的规划域和其随机变体，但提出了一些局限性建议未来工作。

Sep, 2011

Lambda-Policy Iteration: 评述与新实现

本文介绍了一种精确和近似动态规划的方法即 λ- 策略迭代，并讨论了基于模拟的费用函数逼近中的偏差和探索问题。此外，讨论了多种基于此方法的实现，其中一种实现是基于一种新的模拟方案，称为几何采样。

Jul, 2015