基于强化学习的路径规划：一种策略迭代方法

Mar, 2023

基于强化学习的路径规划：一种策略迭代方法

Path Planning using Reinforcement Learning: A Policy Iteration Approach

Saumil Shivdikar, Jagannath Nirmal

TL;DR该研究针对强化学习参数的设计空间进行了设计空间探索，提出了基于自动调谐器的序数回归方法，可以加速收敛并实现 1.82 倍的峰值加速度和 1.48 倍的平均加速度。

Abstract

With the impact of real-time processing being realized in the recent past, the need for efficient implementations of reinforcement learning algorithms has been on the rise. Albeit the numerous advantages of

real-time processing reinforcement learning bellman equations policy iteration auto-tuner-based ordinal regression

发现论文，激发创造

策略迭代的概率采样法近似实现

本文提出了一种改进的策略迭代算法，使用分类器代替值函数，并将策略学习作为监督学习问题进行处理，解决了通过模拟评估策略时的核心抽样问题，实验验证表明其能在反摆杆和车山等领域内实现可比较的性能提升，并显著减少计算工作量。

May, 2008

使用强化学习加速二次优化

使用强化学习 RLQP 策略自动调整参数，加速求解二次优化问题，与现有算法相比，RLQP 能显著提高性能并普适适用于不同应用场景。

Jul, 2021

稀缺经验学习

使用似然比估计的一族算法在估计和优化阶段利用经验数据来优化策略，从而更高效地解决部分可观察的强化学习问题，该算法在实验中表现良好。

Apr, 2002

强化学习算法在倒立摆问题上的比较

本文研究了在没有先验动态知识的情况下，利用强化学习算法（如时间差分、策略梯度、价值函数逼近）对基准车杆动力系统进行控制的最优控制策略，进一步提出了将强化学习和摆起控制器相结合的新方法。

Oct, 2018

迭代式规划中的选项发现

发现有用的时间抽象，以选项的形式展现，被广泛认为是将强化学习和规划应用于越来越复杂的领域的关键。在 AlphaZero 中，借鉴专家迭代方法的经验成功，我们提出 Option Iteration 作为选项发现的相似方法，该方法学习一组选项策略以匹配未来某一时点的搜索结果，从而在具有挑战性的规划环境中比原始动作的规划算法和专家迭代的单一策略学习展示出明显的优势。

Oct, 2023

基于深度强化学习的优化迭代 CT 重建中的智能参数调整

本文提出了一种使用深度强化学习来自动调整像素区域参数，以解决图像处理中优化的问题，实验表明，该方法可以让调优后的重建 CT 图像质量达到手动调整的水平甚至更好。

Nov, 2017

利用潜在空间搜索的组合优化与策略适应

使用强化学习构建基于启发式方法的优化算法，通过预训练具有多样性的策略分布来优化搜索过程，在三个经典问题上实现了更好的性能和泛化能力。

Nov, 2023

连续强化学习的策略优化

研究了强化学习在连续时间和空间的设置下的应用，提出了购买力占据时间的概念，并进一步将其应用于策略梯度和 TRPO/PPO 方法中。通过数值实验，验证了此方法的有效性和优势。

May, 2023

基于规划的探索：关于最优轨迹信息的研究

通过规划最大化任务最优轨迹的期望信息增益的行动序列，使得该方法在较低的样本量下能够学习较强的策略，比探索基线算法少用 2 倍样本，比模型自由方法少用 200 倍样本。

Oct, 2022

多智能体展开算法与强化学习

本文介绍了一种基于本地回滚算法的多智能体决策方法，该方法通过配合其他智能体的协调信息，在每个阶段使每个智能体的决策都能够独立计算，并且与智能体数量无关。此外，我们探讨了并行化智能体计算和近似策略迭代算法等方法来进一步提高本方法的计算效率，并证明了本文算法可以收敛到智能体的最优策略。

Sep, 2019