Dyna-T: 使用 Dyna-Q 和置信上界应用于树
本研究介绍了一种新的基于在线计划的树形结构模型 TreeQN,并且通过在多种游戏环境中的实验表明 TreeQN 和 ATreeC 模型具备优秀的性能。
Oct, 2017
本论文提出了一种基于启发式规划策略的路径规划方法,该方法在模型自由的在线强化学习中比传统的单步 Q 学习和 Dyna-Q 算法都表现出色,可以用于角色扮演游戏中的最优轨迹规划。
Jan, 2011
本研究使用强化学习训练任务完成对话代理人,在集成世界模型的基础上通过使用模拟经验有效提高训练效率,通过引入开关和主动学习改进 Deep Dyna-Q 框架,提出了 Switch-based Active Deep Dyna-Q(Switch-DDQ)算法,同时也在仿真和人工评估中证明了该算法相较于 DDQ 和 Q-learning 有着显着的改进。
Nov, 2018
介绍了一种用于 Deep Reinforcement Learning 中 Q functions 的 mimic learning framework,使用 Linear Model U-trees 替代神经网络的 Q function 预测,通过分析特征影响、提取规则和突出图像输入中的超级像素来帮助理解神经网络的学习知识。
Jul, 2018
本文提出了一种判别式深度 Dyna-Q (D3Q) 方法来提高 Deep Dyna-Q (DDQ) 框架在任务完成对话策略学习中的有效性和鲁棒性。通过整合基于 RNN 的鉴别器来控制训练数据的质量,实验表明与 DDQ 相比,D3Q 的性能得到了显著提高,并在领域扩展实验中进一步证明了 D3Q 的有效性和鲁棒性。
Aug, 2018
提出基于 HC 的搜索控制方法实现 RL 中的 Dyna 结构,利用 HC 算法确定状态和行为,能够提高样本利用效率,并且发现从低价值到高价值区域的当前价值评估样本能够获得更好的表现。
Jun, 2019
通过 Deep Dyna-Q 的强化学习框架进行对话策略学习,将对真实用户的模拟与生成的体验相结合,应用于模拟和 Human in the loop 设置中的电影票预订任务。
Jan, 2018
本论文研究了 Dyna(一种基于模型的强化学习)在多个游戏中的应用,发现规划的形式对 Dyna 的有效性有深刻影响,同时也是第一次成功地使用了手头有限的学习动态模型进行规划,该研究表明 Dyna 是解决高维度问题中的模型泛化能力问题的一种可行方法。
Jun, 2018
应用强化学习(RL)于现实世界的应用需解决渐进性能、样本效率和推理时间之间的平衡问题。本文利用对系统动力学的部分物理知识,演示了如何应对这种三重挑战。我们的方法包括学习一个基于物理知识的模型,以提高样本效率,并通过该模型生成虚拟轨迹,从中学习无模型策略和 Q 函数。此外,我们提出了一种混合规划策略,将学习到的策略、Q 函数和模型结合起来,以提高规划的时间效率。通过实际演示,我们证明了我们的方法在样本效率、时间效率和性能方面优于现有方法。
Jul, 2024
在决策问题中,由于训练数据有限,使用深度神经网络逼近的策略函数常常表现出亚优性。作者引入了一种名为 Differentiable Tree Search (DTS) 的新颖神经网络架构,通过嵌入最佳优先在线搜索算法的算法结构,显著增强了归纳偏置,从而解决了模型精度不准确导致的性能问题。DTS 采用一个学习得到的世界模型在潜在状态空间中进行完全可微的在线搜索,并通过优化搜索算法和世界模型来学习到鲁棒的世界模型,减轻模型不准确性的影响。通过在有限训练数据情境下的 Procgen 游戏和网格导航任务中离线强化学习实验,证明 DTS 优于常见的无模型和有模型的基准算法。
Jan, 2024