规划形状对高维状态空间中 Dyna-style 规划的影响

Jun, 2018

规划形状对高维状态空间中 Dyna-style 规划的影响

The Effect of Planning Shape on Dyna-style Planning in High-dimensional State Spaces

G. Zacharias Holland, Erin J. Talvitie, Michael Bowling

TL;DR本论文研究了 Dyna（一种基于模型的强化学习）在多个游戏中的应用，发现规划的形式对 Dyna 的有效性有深刻影响，同时也是第一次成功地使用了手头有限的学习动态模型进行规划，该研究表明 Dyna 是解决高维度问题中的模型泛化能力问题的一种可行方法。

Abstract

dyna is a fundamental approach to model-based reinforcement learning (MBRL) that interleaves planning, acting, and learning in an online setting. In the most typical application of →

model-based reinforcement learning dyna online planning learned dynamics model arcade learning environment

发现论文，激发创造

组织体验：对连续状态领域基于样本规划的回放机制的深入探讨

本文介绍了一种基于模型的规划策略，使用 REWEIGHTED EXPERIENCE MODELS 方法实现了对 Dyna planning paradigm 的重新定义，在连续状态问题上取得了比回放 buffer 更好的表现。

Jun, 2018

线性函数逼近与优先扫描的 Dyna-Style 规划

应用基于模型的方法通过线性函数逼近扩展 Dyna 结构还原控制策略和价值函数的问题，证明了分布无关的收敛性，提出了基于线性逼近的优先扫描算法并在实例中验证了其性能。

Jun, 2012

Dyna-H: 一种应用于角色扮演游戏策略决策系统的启发式计划强化学习算法

本论文提出了一种基于启发式规划策略的路径规划方法，该方法在模型自由的在线强化学习中比传统的单步 Q 学习和 Dyna-Q 算法都表现出色，可以用于角色扮演游戏中的最优轨迹规划。

Jan, 2011

价值幻觉: Dyna 式规划在不完美环境模型下的陷阱

本文研究 Dyna-style 强化学习算法中的环境模型错误问题，提出了 “虚构价值假设”，探讨了四种变量，并通过实验结果验证了该假设，这为开发可靠的模型错误鲁棒 Dyna 算法提供了一个方向。

Jun, 2020

Dyna 中基于频率的搜索控制

本文提出了一种基于梯度和海森矩阵范数的频率度量策略，通过对价值函数高频区域进行模拟采样，实现了在 Dyna 中对学习效率提高的有效控制。

Feb, 2020

在线强化学习中的规划的新视角

本文提出了一种新的基于模型的强化学习方法，使用背景规划来混合（近似）动态规划和无模型更新，以解决学习模型的不准确性和生成无效状态的问题，并通过约束背景规划到一组（抽象的）子目标和只学习局部的、以子目标为条件的模型来提高计算效率，自然地包含时间抽象以实现更快的长期规划，并完全避免学习转换动力学，展示了该方法在不同领域中可以帮助各种基础学习者更快地学习。

Jun, 2024

物理知情模型与混合规划用于高效的 Dyna 风格增强学习

应用强化学习（RL）于现实世界的应用需解决渐进性能、样本效率和推理时间之间的平衡问题。本文利用对系统动力学的部分物理知识，演示了如何应对这种三重挑战。我们的方法包括学习一个基于物理知识的模型，以提高样本效率，并通过该模型生成虚拟轨迹，从中学习无模型策略和 Q 函数。此外，我们提出了一种混合规划策略，将学习到的策略、Q 函数和模型结合起来，以提高规划的时间效率。通过实际演示，我们证明了我们的方法在样本效率、时间效率和性能方面优于现有方法。

Jul, 2024

元梯度搜索控制：提高 Dyna 风格规划效率的方法

通过引入一种在线、元梯度算法，我们改善了规划过程的效率，进而提高了整体学习过程的样本效率。我们的方法避免了传统规划方法的几种病态现象，并有望在未来的研究中为大规模模型驱动的强化学习系统的设计提供有用的参考。

Jun, 2024

学习动态模型以用于模型预测代理

通过比较使用学习动力学模型进行规划和使用基准模拟器进行规划的性能，来澄清不同设计选择对学习动力学模型的作用，首先从 DeepMind 控制套件的 5 个域的训练序列收集了丰富的数据集，然后以监督方式训练前馈动态模型，并在不同的模型设计选择包括合成，随机性，多步培训和时间步选项时评估规划器性能。

Sep, 2021

基于模型的参数化行动空间强化学习

我们提出了一种新颖的基于模型的强化学习算法 -- 具有参数化动作的动力学学习和预测控制 (DLPA)-- 用于参数化动作马尔可夫决策过程 (PAMDPs)。代理器通过学习参数化动作条件的动力学模型，并使用修改的模型预测路径积分控制进行规划。我们在利普希茨连续性的视角下，理论上量化了在规划过程中生成的轨迹与最优轨迹之间的差异。我们在几个标准基准测试中的实证结果表明，我们的算法在样本效率和渐近性能方面超过了最先进的 PAMDP 方法。

Apr, 2024