提出基于 HC 的搜索控制方法实现 RL 中的 Dyna 结构,利用 HC 算法确定状态和行为,能够提高样本利用效率,并且发现从低价值到高价值区域的当前价值评估样本能够获得更好的表现。
Jun, 2019
通过引入一种在线、元梯度算法,我们改善了规划过程的效率,进而提高了整体学习过程的样本效率。我们的方法避免了传统规划方法的几种病态现象,并有望在未来的研究中为大规模模型驱动的强化学习系统的设计提供有用的参考。
Jun, 2024
本论文研究了 Dyna(一种基于模型的强化学习)在多个游戏中的应用,发现规划的形式对 Dyna 的有效性有深刻影响,同时也是第一次成功地使用了手头有限的学习动态模型进行规划,该研究表明 Dyna 是解决高维度问题中的模型泛化能力问题的一种可行方法。
Jun, 2018
应用基于模型的方法通过线性函数逼近扩展 Dyna 结构还原控制策略和价值函数的问题,证明了分布无关的收敛性,提出了基于线性逼近的优先扫描算法并在实例中验证了其性能。
Jun, 2012
本文介绍了一种基于模型的规划策略,使用 REWEIGHTED EXPERIENCE MODELS 方法实现了对 Dyna planning paradigm 的重新定义,在连续状态问题上取得了比回放 buffer 更好的表现。
本论文提出了一种基于启发式规划策略的路径规划方法,该方法在模型自由的在线强化学习中比传统的单步 Q 学习和 Dyna-Q 算法都表现出色,可以用于角色扮演游戏中的最优轨迹规划。
Jan, 2011
本论文旨在研究深度模型强化学习方法的实证不足,并提出解决方案,同时探讨现代生成建模工具箱中推理技术(包括波束搜索、分类器导向抽样和图像修复等)在强化学习问题中的有效规划策略。
Jun, 2023
提出了一种基于 Lagrangian relaxation 的约束强化学习方法,通过同时优化任务奖励和某些辅助成本来确保任务成功,展示了在连续控制基准任务、优化能量的四足动物运动任务以及实际机器人臂夹取任务上,该方法的有效性。
Feb, 2019
本文提出利用贝叶斯最优实验设计思想指导选择状态 - 动作对查询以达到高效学习的方法,即提出一种衡量一个状态 - 动作对对马尔可夫决策过程的最优解提供多少信息的获取函数,在每次迭代中,我们的算法最大化这个获取函数,选择提供最多信息的状态 - 动作对被查询,从而获得高效的数据驱动强化学习方法;在多个连续控制问题上实验,相比于基于模型或无模型的 RL 基线方法,本文方法学习出的最优策略所需样本量减少了 5-1000 倍。
Dec, 2021
本研究介绍了一种新的训练算法叫做 Diffused Value Function (DVF),该算法学习使用扩散模型的环境 - 机器人交互动态的联合多步模型,可以高效地捕获多个控制器的状态访问度量,并在具有挑战性的机器人基准测试中展示了有希望的定量和定性结果。