进化直接策略搜索中的广义提前停止
本文提出了一种新的策略迭代方法——动态策略规划(DPP),用于在无限时间马尔可夫决策过程(MDP)中估计最优策略,证明了DPP在估计和近似误差存在的情况下的有限迭代和渐进l∞-norm性能损失边界,通过数值实验表明,与现有的强化学习方法相比,在所有情况下,基于DPP的算法表现出更好的性能。
Apr, 2010
本篇研究考虑了马尔科夫决策过程(Markov Decision Processes)的无限时间折扣优化控制问题,并提供了Policy Search算法以及Direct Policy Iteration和Conservative Policy Iteration的性能保证,同时提出了Non-Stationary Direct Policy Iteration算法,并证明其时间复杂度类似于DPI,性能保证好于DPI,且与CPI相当。
Jun, 2013
本文研究了同时学习和规划的最优停止问题,提出了一种名为GFSE的简单灵活的无模型策略搜索方法,通过利用问题结构重复利用数据来提高采样效率,文中还对该方法在三个不同领域的表现与基于模型和无模型的现有方法进行了比较。
Feb, 2017
本文综述了连续动作策略搜索的研究现状,包括深度强化学习算法、基于进化算法的竞争者、贝叶斯优化和定向探索方法等,提供了一种统一的视角,并探讨了各种方法的样本效率特性。
Mar, 2018
通过介绍一种随机搜索算法,我们证明了基于策略参数空间的随机搜索方法与探索动作空间的方法在样本效率方面没有显著差异。该算法可在连续控制问题中训练静态、线性策略,并在 MuJoCo 任务基准测试中表现出与最先进的模型无关方法相当的样本效率。此外,在动力学未知的控制理论经典问题中,我们的算法也能找到接近最优的控制器,计算效率至少比这些基准测试中最快的模型无关方法高出 15 倍。
Mar, 2018
本文研究了初始数据收集方法对动态模型学习的影响,并比较了两个文献中使用的初始化方法,结果表明任务依赖因素可能对每种方法都有害,建议探索混合方法。
Oct, 2022
探讨了在一个给定的任务中选择 action-cycle 时间时,学习算法的超参数是否需要重新调整,并进行了相应的实验和对比研究,提出了一种基于 cycle time 设置超参数的新方法,以避免针对每个 cycle time 进行昂贵和广泛的超参数调整。
May, 2023
本研究解决了扩散基础策略在连续控制和机器人学习任务中的高效调优问题。提出的DPPO框架通过强化学习中的策略梯度方法,展示了在常见基准测试中优于其他RL方法的强大性能与效率,表明了扩散参数化与强化学习调优之间的独特协同作用,具有广泛的应用潜力。
Sep, 2024