Dyna 中基于频率的搜索控制

ICLRFeb, 2020

Frequency-based Search-control in Dyna

Yangchen Pan, Jincheng Mei, Amir-massoud Farahmand

TL;DR本文提出了一种基于梯度和海森矩阵范数的频率度量策略，通过对价值函数高频区域进行模拟采样，实现了在 Dyna 中对学习效率提高的有效控制。

Abstract

model-based reinforcement learning has been empirically demonstrated as a successful strategy to improve sample efficiency. In particular, dyna

model-based reinforcement learning dyna search-control value function sample efficiency

发现论文，激发创造

使用价值估算进行爬山搜索控制的 Dyan

提出基于 HC 的搜索控制方法实现 RL 中的 Dyna 结构，利用 HC 算法确定状态和行为，能够提高样本利用效率，并且发现从低价值到高价值区域的当前价值评估样本能够获得更好的表现。

Jun, 2019

元梯度搜索控制：提高 Dyna 风格规划效率的方法

通过引入一种在线、元梯度算法，我们改善了规划过程的效率，进而提高了整体学习过程的样本效率。我们的方法避免了传统规划方法的几种病态现象，并有望在未来的研究中为大规模模型驱动的强化学习系统的设计提供有用的参考。

Jun, 2024

规划形状对高维状态空间中 Dyna-style 规划的影响

本论文研究了 Dyna（一种基于模型的强化学习）在多个游戏中的应用，发现规划的形式对 Dyna 的有效性有深刻影响，同时也是第一次成功地使用了手头有限的学习动态模型进行规划，该研究表明 Dyna 是解决高维度问题中的模型泛化能力问题的一种可行方法。

Jun, 2018

线性函数逼近与优先扫描的 Dyna-Style 规划

应用基于模型的方法通过线性函数逼近扩展 Dyna 结构还原控制策略和价值函数的问题，证明了分布无关的收敛性，提出了基于线性逼近的优先扫描算法并在实例中验证了其性能。

Jun, 2012

组织体验：对连续状态领域基于样本规划的回放机制的深入探讨

本文介绍了一种基于模型的规划策略，使用 REWEIGHTED EXPERIENCE MODELS 方法实现了对 Dyna planning paradigm 的重新定义，在连续状态问题上取得了比回放 buffer 更好的表现。

Jun, 2018

Dyna-H: 一种应用于角色扮演游戏策略决策系统的启发式计划强化学习算法

本论文提出了一种基于启发式规划策略的路径规划方法，该方法在模型自由的在线强化学习中比传统的单步 Q 学习和 Dyna-Q 算法都表现出色，可以用于角色扮演游戏中的最优轨迹规划。

Jan, 2011

决策和控制的深度生成模型

本论文旨在研究深度模型强化学习方法的实证不足，并提出解决方案，同时探讨现代生成建模工具箱中推理技术（包括波束搜索、分类器导向抽样和图像修复等）在强化学习问题中的有效规划策略。

Jun, 2023

基于价值限制的无模型连续控制

提出了一种基于 Lagrangian relaxation 的约束强化学习方法，通过同时优化任务奖励和某些辅助成本来确保任务成功，展示了在连续控制基准任务、优化能量的四足动物运动任务以及实际机器人臂夹取任务上，该方法的有效性。

Feb, 2019

基于模型的强化学习的实验设计视角

本文提出利用贝叶斯最优实验设计思想指导选择状态 - 动作对查询以达到高效学习的方法，即提出一种衡量一个状态 - 动作对对马尔可夫决策过程的最优解提供多少信息的获取函数，在每次迭代中，我们的算法最大化这个获取函数，选择提供最多信息的状态 - 动作对被查询，从而获得高效的数据驱动强化学习方法；在多个连续控制问题上实验，相比于基于模型或无模型的 RL 基线方法，本文方法学习出的最优策略所需样本量减少了 5-1000 倍。

Dec, 2021

使用条件扩散模型进行价值函数估计和控制

本研究介绍了一种新的训练算法叫做 Diffused Value Function (DVF)，该算法学习使用扩散模型的环境 - 机器人交互动态的联合多步模型，可以高效地捕获多个控制器的状态访问度量，并在具有挑战性的机器人基准测试中展示了有希望的定量和定性结果。

Jun, 2023