Dyna-H: 一种应用于角色扮演游戏策略决策系统的启发式计划强化学习算法

Jan, 2011

Dyna-H: 一种应用于角色扮演游戏策略决策系统的启发式计划强化学习算法

Dyna-H: a heuristic planning reinforcement learning algorithm applied to role-playing-game strategy decision systems

Matilde Santos, Jose Antonio Martin H., Victoria Lopez, Guillermo Botella

TL;DR本论文提出了一种基于启发式规划策略的路径规划方法，该方法在模型自由的在线强化学习中比传统的单步 Q 学习和 Dyna-Q 算法都表现出色，可以用于角色扮演游戏中的最优轨迹规划。

Abstract

In a role-playing game, finding optimal trajectories is one of the most important tasks. In fact, the strategy decision system becomes a key component of a game engine. Determining the way in which decisions are taken (online, batch or simulated) and the consumed resources in decision

role-playing game trajectory optimization heuristic planning model-free methods reinforcement learning

发现论文，激发创造

规划形状对高维状态空间中 Dyna-style 规划的影响

本论文研究了 Dyna（一种基于模型的强化学习）在多个游戏中的应用，发现规划的形式对 Dyna 的有效性有深刻影响，同时也是第一次成功地使用了手头有限的学习动态模型进行规划，该研究表明 Dyna 是解决高维度问题中的模型泛化能力问题的一种可行方法。

Jun, 2018

Dyna-T: 使用 Dyna-Q 和置信上界应用于树

本研究提出了一种基于模型、使用 UCT 搜索和更具鲁棒性的动作选择策略的强化学习算法 Dyna-T，在 Open AI 的三个测试环境中的初步测试表明 Dyna-T 优于最先进的 RL 代理。

Jan, 2022

使用动态算法配置学习启发式选择

通过动态算法配置和强化学习，可以使用多个启发式方法进行规划，并考虑内部搜索动态，以选择最有用的启发式方法，在一定程度上可以大幅提高启发性搜索的性能。

Jun, 2020

使用价值估算进行爬山搜索控制的 Dyan

提出基于 HC 的搜索控制方法实现 RL 中的 Dyna 结构，利用 HC 算法确定状态和行为，能够提高样本利用效率，并且发现从低价值到高价值区域的当前价值评估样本能够获得更好的表现。

Jun, 2019

基于交换机的主动式深度 Dyna-Q: 用于任务完成对话策略学习的高效自适应规划

本研究使用强化学习训练任务完成对话代理人，在集成世界模型的基础上通过使用模拟经验有效提高训练效率，通过引入开关和主动学习改进 Deep Dyna-Q 框架，提出了 Switch-based Active Deep Dyna-Q（Switch-DDQ）算法，同时也在仿真和人工评估中证明了该算法相较于 DDQ 和 Q-learning 有着显着的改进。

Nov, 2018

元梯度搜索控制：提高 Dyna 风格规划效率的方法

通过引入一种在线、元梯度算法，我们改善了规划过程的效率，进而提高了整体学习过程的样本效率。我们的方法避免了传统规划方法的几种病态现象，并有望在未来的研究中为大规模模型驱动的强化学习系统的设计提供有用的参考。

Jun, 2024

Dyna 中基于频率的搜索控制

本文提出了一种基于梯度和海森矩阵范数的频率度量策略，通过对价值函数高频区域进行模拟采样，实现了在 Dyna 中对学习效率提高的有效控制。

Feb, 2020

区分性深层 Dyna-Q: 对话策略学习的强韧规划

本文提出了一种判别式深度 Dyna-Q (D3Q) 方法来提高 Deep Dyna-Q (DDQ) 框架在任务完成对话策略学习中的有效性和鲁棒性。通过整合基于 RNN 的鉴别器来控制训练数据的质量，实验表明与 DDQ 相比，D3Q 的性能得到了显著提高，并在领域扩展实验中进一步证明了 D3Q 的有效性和鲁棒性。

Aug, 2018

线性函数逼近与优先扫描的 Dyna-Style 规划

应用基于模型的方法通过线性函数逼近扩展 Dyna 结构还原控制策略和价值函数的问题，证明了分布无关的收敛性，提出了基于线性逼近的优先扫描算法并在实例中验证了其性能。

Jun, 2012

物理知情模型与混合规划用于高效的 Dyna 风格增强学习

应用强化学习（RL）于现实世界的应用需解决渐进性能、样本效率和推理时间之间的平衡问题。本文利用对系统动力学的部分物理知识，演示了如何应对这种三重挑战。我们的方法包括学习一个基于物理知识的模型，以提高样本效率，并通过该模型生成虚拟轨迹，从中学习无模型策略和 Q 函数。此外，我们提出了一种混合规划策略，将学习到的策略、Q 函数和模型结合起来，以提高规划的时间效率。通过实际演示，我们证明了我们的方法在样本效率、时间效率和性能方面优于现有方法。

Jul, 2024