进化直接策略搜索中的广义提前停止

Aug, 2023

进化直接策略搜索中的广义提前停止

Generalized Early Stopping in Evolutionary Direct Policy Search

Etor Arza, Leni K. Le Goff, Emma Hart

TL;DR提出一种早期停止方法，适用于直接策略搜索问题，通过观察每个时间步骤的目标值来停止评估，无需问题特定的知识，可以节省高达75%的计算时间。与问题特定的停止标准相比，性能相当，并且具有更广泛的适用性。

Abstract

Lengthy evaluation times are common in many optimization problems such as direct policy search tasks, especially when they involve conduct

发现论文，激发创造

动态策略编程

本文提出了一种新的策略迭代方法——动态策略规划（DPP），用于在无限时间马尔可夫决策过程（MDP）中估计最优策略，证明了DPP在估计和近似误差存在的情况下的有限迭代和渐进l∞-norm性能损失边界，通过数值实验表明，与现有的强化学习方法相比，在所有情况下，基于DPP的算法表现出更好的性能。

Apr, 2010

关于某些策略搜索动态规划算法的性能界限

本篇研究考虑了马尔科夫决策过程(Markov Decision Processes)的无限时间折扣优化控制问题，并提供了Policy Search算法以及Direct Policy Iteration和Conservative Policy Iteration的性能保证，同时提出了Non-Stationary Direct Policy Iteration算法，并证明其时间复杂度类似于DPI，性能保证好于DPI，且与CPI相当。

Jun, 2013

用于最优停止域的高效策略搜索

本文研究了同时学习和规划的最优停止问题，提出了一种名为GFSE的简单灵活的无模型策略搜索方法，通过利用问题结构重复利用数据来提高采样效率，文中还对该方法在三个不同领域的表现与基于模型和无模型的现有方法进行了比较。

Feb, 2017

连续动作领域的策略搜索：概述

本文综述了连续动作策略搜索的研究现状，包括深度强化学习算法、基于进化算法的竞争者、贝叶斯优化和定向探索方法等，提供了一种统一的视角，并探讨了各种方法的样本效率特性。

Mar, 2018

简单随机搜索提供了竞争性的增强学习方法

通过介绍一种随机搜索算法，我们证明了基于策略参数空间的随机搜索方法与探索动作空间的方法在样本效率方面没有显著差异。该算法可在连续控制问题中训练静态、线性策略，并在 MuJoCo 任务基准测试中表现出与最先进的模型无关方法相当的样本效率。此外，在动力学未知的控制理论经典问题中，我们的算法也能找到接近最优的控制器，计算效率至少比这些基准测试中最快的模型无关方法高出 15 倍。

Mar, 2018

随机动作 vs 随机策略：基于模型的直接策略搜索的引导

本文研究了初始数据收集方法对动态模型学习的影响，并比较了两个文献中使用的初始化方法，结果表明任务依赖因素可能对每种方法都有害，建议探索混合方法。

Oct, 2022

减少实际政策优化循环时间调整的成本

探讨了在一个给定的任务中选择 action-cycle 时间时，学习算法的超参数是否需要重新调整，并进行了相应的实验和对比研究，提出了一种基于 cycle time 设置超参数的新方法，以避免针对每个 cycle time 进行昂贵和广泛的超参数调整。

May, 2023

强化学习辅助的进化算法：调查与研究机会

综述了将强化学习应用于进化算法的研究，讨论了集成方法、应用领域以及未来研究方向。

Aug, 2023

利用潜在空间搜索的组合优化与策略适应

使用强化学习构建基于启发式方法的优化算法，通过预训练具有多样性的策略分布来优化搜索过程，在三个经典问题上实现了更好的性能和泛化能力。

Nov, 2023

扩散策略优化

本研究解决了扩散基础策略在连续控制和机器人学习任务中的高效调优问题。提出的DPPO框架通过强化学习中的策略梯度方法，展示了在常见基准测试中优于其他RL方法的强大性能与效率，表明了扩散参数化与强化学习调优之间的独特协同作用，具有广泛的应用潜力。

Sep, 2024