基于交换机的主动式深度 Dyna-Q: 用于任务完成对话策略学习的高效自适应规划

AAAINov, 2018

基于交换机的主动式深度 Dyna-Q: 用于任务完成对话策略学习的高效自适应规划

Switch-based Active Deep Dyna-Q: Efficient Adaptive Planning for Task-Completion Dialogue Policy Learning

Yuexin Wu, Xiujun Li, Jingjing Liu, Jianfeng Gao, Yiming Yang

TL;DR本研究使用强化学习训练任务完成对话代理人，在集成世界模型的基础上通过使用模拟经验有效提高训练效率，通过引入开关和主动学习改进 Deep Dyna-Q 框架，提出了 Switch-based Active Deep Dyna-Q（Switch-DDQ）算法，同时也在仿真和人工评估中证明了该算法相较于 DDQ 和 Q-learning 有着显着的改进。

Abstract

Training task-completion dialogue agents with reinforcement learning usually requires a large number of real user experiences. The dyna-q algorithm extends Q-learning by integrating a world model, and thus can ef

task-completion dialog agents reinforcement learning dyna-q deep dyna-q active learning

发现论文，激发创造

深度 Dynq-Q: 任务完成对话策略学习中计划的集成

通过 Deep Dyna-Q 的强化学习框架进行对话策略学习，将对真实用户的模拟与生成的体验相结合，应用于模拟和 Human in the loop 设置中的电影票预订任务。

Jan, 2018

区分性深层 Dyna-Q: 对话策略学习的强韧规划

本文提出了一种判别式深度 Dyna-Q (D3Q) 方法来提高 Deep Dyna-Q (DDQ) 框架在任务完成对话策略学习中的有效性和鲁棒性。通过整合基于 RNN 的鉴别器来控制训练数据的质量，实验表明与 DDQ 相比，D3Q 的性能得到了显著提高，并在领域扩展实验中进一步证明了 D3Q 的有效性和鲁棒性。

Aug, 2018

定时奇异 - 深度动态 Q: 对话策略学习的高效探索

基于 Deep Dyna-Q (DDQ) 模型的好奇心驱动的课程学习框架，通过计划学习和好奇心的引入，在任务导向的对话代理培训过程中获得显著改进，并发现了易先与难先策略更适合 SC-DDQ 和 DDQ。

Jan, 2024

面向任务导向对话系统的预算策略学习

本文提出了一种新的方法，通过引入预算感知调度（BCS）扩展了 Deep Dyna-Q（DDQ），以最大限度地利用固定的少量用户交互（预算）来学习面向任务的对话代理。实验表明，在固定预算的情况下，与现有技术相比，我们的方法在虚拟和真实用户下都显著提高了成功率。

Jun, 2019

通过学习深度反向动力学模型，从模拟环境实现向真实世界的迁移

本文研究了如何将在模拟中成功的控制策略推广到实际机器人上，通过计算模拟根据该策略期望的状态并利用深度逆动力学模型决定哪种真实世界的控制动作最适合实现这些状态，同时提出了一种数据收集方法（逐步）学习深度逆动力学模型。

Oct, 2016

动态感知的多样性优化：高效学习技能库

通过使用动态模型来提高质量 - 多样性算法的样本效率，我们提出了动态感知质量 - 多样性 (DA-QD) 框架；我们从中获得的经验进行增量训练，可以在想象力中使用想象技能库进行质量 - 多样性探索。该方法能够在三个机器人实验中取得成功的应用，包括比现有 QD 方法更高效的技能发现、零 - shot 学习中的新技能库以及长期导航任务中的损伤适应。

Sep, 2021

通过动态感知和无重置学习在物理机器人上实现质量多样性优化

通过 Reset-Free QD 算法和动力学模型，在物理机器人上直接学习控制器，以提高样本效率和生成最佳存档，从而使物理四足机器人在两小时内学习到行为技能库。

Apr, 2023

从弱演示中学习对话策略

本研究提出一种基于 Deep Q-learning from Demonstrations 的 Reinforced Fine-tune Learning 方法，利用 labeled、reduced-labeled 和 unlabeled data 训练 expert demonstrators，以解决多领域对话系统中 state 和 action 空间较大的问题，并在实验中取得了较高的成功率。

Apr, 2020

Dyna-T: 使用 Dyna-Q 和置信上界应用于树

本研究提出了一种基于模型、使用 UCT 搜索和更具鲁棒性的动作选择策略的强化学习算法 Dyna-T，在 Open AI 的三个测试环境中的初步测试表明 Dyna-T 优于最先进的 RL 代理。

Jan, 2022

深度强化学习下面向对话状态跟踪和管理的端到端学习

该论文提出了一个基于 Deep Recurrent Q-Networks 变体的端到端对话系统框架，使用强化学习与监督学习的混合算法，在 20 Questions 游戏模拟器上的实验结果表明，该模型优于基线模型，并学习了潜在对话状态的分布式表示。

Jun, 2016