区分性深层 Dyna-Q: 对话策略学习的强韧规划

EMNLPAug, 2018

区分性深层 Dyna-Q: 对话策略学习的强韧规划

Discriminative Deep Dyna-Q: Robust Planning for Dialogue Policy Learning

Shang-Yu Su, Xiujun Li, Jianfeng Gao, Jingjing Liu, Yun-Nung Chen

TL;DR本文提出了一种判别式深度 Dyna-Q (D3Q) 方法来提高 Deep Dyna-Q (DDQ) 框架在任务完成对话策略学习中的有效性和鲁棒性。通过整合基于 RNN 的鉴别器来控制训练数据的质量，实验表明与 DDQ 相比，D3Q 的性能得到了显著提高，并在领域扩展实验中进一步证明了 D3Q 的有效性和鲁棒性。

Abstract

This paper presents a Discriminative deep dyna-q (D3Q) approach to improving the effectiveness and robustness of deep dyna-q (DDQ), a recently proposed framework that extends the Dyna-Q algorithm to integrate pla

deep dyna-q discriminative approach rnn-based discriminator task-completion dialogue policy domain adaptation

发现论文，激发创造

深度 Dynq-Q: 任务完成对话策略学习中计划的集成

通过 Deep Dyna-Q 的强化学习框架进行对话策略学习，将对真实用户的模拟与生成的体验相结合，应用于模拟和 Human in the loop 设置中的电影票预订任务。

Jan, 2018

基于交换机的主动式深度 Dyna-Q: 用于任务完成对话策略学习的高效自适应规划

本研究使用强化学习训练任务完成对话代理人，在集成世界模型的基础上通过使用模拟经验有效提高训练效率，通过引入开关和主动学习改进 Deep Dyna-Q 框架，提出了 Switch-based Active Deep Dyna-Q（Switch-DDQ）算法，同时也在仿真和人工评估中证明了该算法相较于 DDQ 和 Q-learning 有着显着的改进。

Nov, 2018

定时奇异 - 深度动态 Q: 对话策略学习的高效探索

基于 Deep Dyna-Q (DDQ) 模型的好奇心驱动的课程学习框架，通过计划学习和好奇心的引入，在任务导向的对话代理培训过程中获得显著改进，并发现了易先与难先策略更适合 SC-DDQ 和 DDQ。

Jan, 2024

面向任务导向对话系统的预算策略学习

本文提出了一种新的方法，通过引入预算感知调度（BCS）扩展了 Deep Dyna-Q（DDQ），以最大限度地利用固定的少量用户交互（预算）来学习面向任务的对话代理。实验表明，在固定预算的情况下，与现有技术相比，我们的方法在虚拟和真实用户下都显著提高了成功率。

Jun, 2019

深度强化学习下面向对话状态跟踪和管理的端到端学习

该论文提出了一个基于 Deep Recurrent Q-Networks 变体的端到端对话系统框架，使用强化学习与监督学习的混合算法，在 20 Questions 游戏模拟器上的实验结果表明，该模型优于基线模型，并学习了潜在对话状态的分布式表示。

Jun, 2016

从弱演示中学习对话策略

本研究提出一种基于 Deep Q-learning from Demonstrations 的 Reinforced Fine-tune Learning 方法，利用 labeled、reduced-labeled 和 unlabeled data 训练 expert demonstrators，以解决多领域对话系统中 state 和 action 空间较大的问题，并在实验中取得了较高的成功率。

Apr, 2020

多领域对话系统的深度强化学习

本文提出了一种用于多域对话政策学习的 NDQN 方法，与传统的 Deep Q-Networks（DQN）相比，实验结果表明其具有更好的可扩展性，有望优化多域对话系统的行为。

Nov, 2016

元对话策略学习

本研究利用 Deep Transferable Q-Network (DTQN) 和 Meta-DTQN 模型，以及基于特征子空间的交叉领域知识转移，提高了跨领域对话系统的性能，同时在 MultiWOZ 2.0 多领域对话数据集上取得了成功率和对话效率的双重胜利。

Jun, 2020

动态感知的多样性优化：高效学习技能库

通过使用动态模型来提高质量 - 多样性算法的样本效率，我们提出了动态感知质量 - 多样性 (DA-QD) 框架；我们从中获得的经验进行增量训练，可以在想象力中使用想象技能库进行质量 - 多样性探索。该方法能够在三个机器人实验中取得成功的应用，包括比现有 QD 方法更高效的技能发现、零 - shot 学习中的新技能库以及长期导航任务中的损伤适应。

Sep, 2021

通过动态感知和无重置学习在物理机器人上实现质量多样性优化

通过 Reset-Free QD 算法和动力学模型，在物理机器人上直接学习控制器，以提高样本效率和生成最佳存档，从而使物理四足机器人在两小时内学习到行为技能库。

Apr, 2023