规划形状对高维状态空间中 Dyna-style 规划的影响
本文介绍了一种基于模型的规划策略,使用 REWEIGHTED EXPERIENCE MODELS 方法实现了对 Dyna planning paradigm 的重新定义,在连续状态问题上取得了比回放 buffer 更好的表现。
Jun, 2018
应用基于模型的方法通过线性函数逼近扩展 Dyna 结构还原控制策略和价值函数的问题,证明了分布无关的收敛性,提出了基于线性逼近的优先扫描算法并在实例中验证了其性能。
Jun, 2012
本论文提出了一种基于启发式规划策略的路径规划方法,该方法在模型自由的在线强化学习中比传统的单步 Q 学习和 Dyna-Q 算法都表现出色,可以用于角色扮演游戏中的最优轨迹规划。
Jan, 2011
本文研究 Dyna-style 强化学习算法中的环境模型错误问题,提出了 “虚构价值假设”,探讨了四种变量,并通过实验结果验证了该假设,这为开发可靠的模型错误鲁棒 Dyna 算法提供了一个方向。
Jun, 2020
本文提出了一种新的基于模型的强化学习方法,使用背景规划来混合(近似)动态规划和无模型更新,以解决学习模型的不准确性和生成无效状态的问题,并通过约束背景规划到一组(抽象的)子目标和只学习局部的、以子目标为条件的模型来提高计算效率,自然地包含时间抽象以实现更快的长期规划,并完全避免学习转换动力学,展示了该方法在不同领域中可以帮助各种基础学习者更快地学习。
Jun, 2024
应用强化学习(RL)于现实世界的应用需解决渐进性能、样本效率和推理时间之间的平衡问题。本文利用对系统动力学的部分物理知识,演示了如何应对这种三重挑战。我们的方法包括学习一个基于物理知识的模型,以提高样本效率,并通过该模型生成虚拟轨迹,从中学习无模型策略和 Q 函数。此外,我们提出了一种混合规划策略,将学习到的策略、Q 函数和模型结合起来,以提高规划的时间效率。通过实际演示,我们证明了我们的方法在样本效率、时间效率和性能方面优于现有方法。
Jul, 2024
通过引入一种在线、元梯度算法,我们改善了规划过程的效率,进而提高了整体学习过程的样本效率。我们的方法避免了传统规划方法的几种病态现象,并有望在未来的研究中为大规模模型驱动的强化学习系统的设计提供有用的参考。
Jun, 2024
通过比较使用学习动力学模型进行规划和使用基准模拟器进行规划的性能,来澄清不同设计选择对学习动力学模型的作用,首先从 DeepMind 控制套件的 5 个域的训练序列收集了丰富的数据集,然后以监督方式训练前馈动态模型,并在不同的模型设计选择包括合成,随机性,多步培训和时间步选项时评估规划器性能。
Sep, 2021
我们提出了一种新颖的基于模型的强化学习算法 -- 具有参数化动作的动力学学习和预测控制 (DLPA)-- 用于参数化动作马尔可夫决策过程 (PAMDPs)。代理器通过学习参数化动作条件的动力学模型,并使用修改的模型预测路径积分控制进行规划。我们在利普希茨连续性的视角下,理论上量化了在规划过程中生成的轨迹与最优轨迹之间的差异。我们在几个标准基准测试中的实证结果表明,我们的算法在样本效率和渐近性能方面超过了最先进的 PAMDP 方法。
Apr, 2024