Dyna-T: 使用 Dyna-Q 和置信上界应用于树

Jan, 2022

Dyna-T: 使用 Dyna-Q 和置信上界应用于树

Dyna-T: Dyna-Q and Upper Confidence Bounds Applied to Trees

Tarek Faycal, Claudio Zito

TL;DR本研究提出了一种基于模型、使用 UCT 搜索和更具鲁棒性的动作选择策略的强化学习算法 Dyna-T，在 Open AI 的三个测试环境中的初步测试表明 Dyna-T 优于最先进的 RL 代理。

Abstract

In this work we present a preliminary investigation of a novel algorithm called dyna-t. In reinforcement learning (RL) a planning agent has its own representation of the environment as a model. To discover an opt

reinforcement learning dyna-t model-based rl upper confidence tree action selection strategy

发现论文，激发创造

TreeQN 和 ATreeC：用于深度强化学习的可微分树形结构模型

本研究介绍了一种新的基于在线计划的树形结构模型 TreeQN，并且通过在多种游戏环境中的实验表明 TreeQN 和 ATreeC 模型具备优秀的性能。

Oct, 2017

Dyna-H: 一种应用于角色扮演游戏策略决策系统的启发式计划强化学习算法

本论文提出了一种基于启发式规划策略的路径规划方法，该方法在模型自由的在线强化学习中比传统的单步 Q 学习和 Dyna-Q 算法都表现出色，可以用于角色扮演游戏中的最优轨迹规划。

Jan, 2011

基于交换机的主动式深度 Dyna-Q: 用于任务完成对话策略学习的高效自适应规划

本研究使用强化学习训练任务完成对话代理人，在集成世界模型的基础上通过使用模拟经验有效提高训练效率，通过引入开关和主动学习改进 Deep Dyna-Q 框架，提出了 Switch-based Active Deep Dyna-Q（Switch-DDQ）算法，同时也在仿真和人工评估中证明了该算法相较于 DDQ 和 Q-learning 有着显着的改进。

Nov, 2018

使用线性模型 U-Trees 探索可解释的深度强化学习

介绍了一种用于 Deep Reinforcement Learning 中 Q functions 的 mimic learning framework，使用 Linear Model U-trees 替代神经网络的 Q function 预测，通过分析特征影响、提取规则和突出图像输入中的超级像素来帮助理解神经网络的学习知识。

Jul, 2018

区分性深层 Dyna-Q: 对话策略学习的强韧规划

本文提出了一种判别式深度 Dyna-Q (D3Q) 方法来提高 Deep Dyna-Q (DDQ) 框架在任务完成对话策略学习中的有效性和鲁棒性。通过整合基于 RNN 的鉴别器来控制训练数据的质量，实验表明与 DDQ 相比，D3Q 的性能得到了显著提高，并在领域扩展实验中进一步证明了 D3Q 的有效性和鲁棒性。

Aug, 2018

使用价值估算进行爬山搜索控制的 Dyan

提出基于 HC 的搜索控制方法实现 RL 中的 Dyna 结构，利用 HC 算法确定状态和行为，能够提高样本利用效率，并且发现从低价值到高价值区域的当前价值评估样本能够获得更好的表现。

Jun, 2019

深度 Dynq-Q: 任务完成对话策略学习中计划的集成

通过 Deep Dyna-Q 的强化学习框架进行对话策略学习，将对真实用户的模拟与生成的体验相结合，应用于模拟和 Human in the loop 设置中的电影票预订任务。

Jan, 2018

规划形状对高维状态空间中 Dyna-style 规划的影响

本论文研究了 Dyna（一种基于模型的强化学习）在多个游戏中的应用，发现规划的形式对 Dyna 的有效性有深刻影响，同时也是第一次成功地使用了手头有限的学习动态模型进行规划，该研究表明 Dyna 是解决高维度问题中的模型泛化能力问题的一种可行方法。

Jun, 2018

物理知情模型与混合规划用于高效的 Dyna 风格增强学习

应用强化学习（RL）于现实世界的应用需解决渐进性能、样本效率和推理时间之间的平衡问题。本文利用对系统动力学的部分物理知识，演示了如何应对这种三重挑战。我们的方法包括学习一个基于物理知识的模型，以提高样本效率，并通过该模型生成虚拟轨迹，从中学习无模型策略和 Q 函数。此外，我们提出了一种混合规划策略，将学习到的策略、Q 函数和模型结合起来，以提高规划的时间效率。通过实际演示，我们证明了我们的方法在样本效率、时间效率和性能方面优于现有方法。

Jul, 2024

潜在状态空间中的可微树搜索

在决策问题中，由于训练数据有限，使用深度神经网络逼近的策略函数常常表现出亚优性。作者引入了一种名为 Differentiable Tree Search (DTS) 的新颖神经网络架构，通过嵌入最佳优先在线搜索算法的算法结构，显著增强了归纳偏置，从而解决了模型精度不准确导致的性能问题。DTS 采用一个学习得到的世界模型在潜在状态空间中进行完全可微的在线搜索，并通过优化搜索算法和世界模型来学习到鲁棒的世界模型，减轻模型不准确性的影响。通过在有限训练数据情境下的 Procgen 游戏和网格导航任务中离线强化学习实验，证明 DTS 优于常见的无模型和有模型的基准算法。

Jan, 2024