面向任务导向对话系统的预算策略学习

ACLJun, 2019

面向任务导向对话系统的预算策略学习

Budgeted Policy Learning for Task-Oriented Dialogue Systems

Zhirui Zhang, Xiujun Li, Jianfeng Gao, Enhong Chen

TL;DR本文提出了一种新的方法，通过引入预算感知调度（BCS）扩展了 Deep Dyna-Q（DDQ），以最大限度地利用固定的少量用户交互（预算）来学习面向任务的对话代理。实验表明，在固定预算的情况下，与现有技术相比，我们的方法在虚拟和真实用户下都显著提高了成功率。

Abstract

This paper presents a new approach that extends deep dyna-q (DDQ) by incorporating a budget-conscious scheduling (BCS) to best utilize a fixed, small amount of →

deep dyna-q budget-conscious scheduling task-oriented dialogue agents user interactions policy learning

发现论文，激发创造

定时奇异 - 深度动态 Q: 对话策略学习的高效探索

基于 Deep Dyna-Q (DDQ) 模型的好奇心驱动的课程学习框架，通过计划学习和好奇心的引入，在任务导向的对话代理培训过程中获得显著改进，并发现了易先与难先策略更适合 SC-DDQ 和 DDQ。

Jan, 2024

深度 Dynq-Q: 任务完成对话策略学习中计划的集成

通过 Deep Dyna-Q 的强化学习框架进行对话策略学习，将对真实用户的模拟与生成的体验相结合，应用于模拟和 Human in the loop 设置中的电影票预订任务。

Jan, 2018

区分性深层 Dyna-Q: 对话策略学习的强韧规划

本文提出了一种判别式深度 Dyna-Q (D3Q) 方法来提高 Deep Dyna-Q (DDQ) 框架在任务完成对话策略学习中的有效性和鲁棒性。通过整合基于 RNN 的鉴别器来控制训练数据的质量，实验表明与 DDQ 相比，D3Q 的性能得到了显著提高，并在领域扩展实验中进一步证明了 D3Q 的有效性和鲁棒性。

Aug, 2018

基于交换机的主动式深度 Dyna-Q: 用于任务完成对话策略学习的高效自适应规划

本研究使用强化学习训练任务完成对话代理人，在集成世界模型的基础上通过使用模拟经验有效提高训练效率，通过引入开关和主动学习改进 Deep Dyna-Q 框架，提出了 Switch-based Active Deep Dyna-Q（Switch-DDQ）算法，同时也在仿真和人工评估中证明了该算法相较于 DDQ 和 Q-learning 有着显着的改进。

Nov, 2018

分布式结构化演员 - 评论家强化学习在通用对话管理中的应用

本篇论文主要探讨针对特定任务的语音对话系统，重点在于如何通过部分可观察的马尔可夫决策过程来制定对话策略，并以神经网络为函数逼近器的方式，探索深度强化学习算法在对话决策中的应用。

Sep, 2020

层次深度强化学习下的复合任务完成对话策略学习

本文针对复杂任务对话代理的构建问题，如旅行规划，通过将任务公式化为基于马尔可夫决策过程的选项数学框架，并提出一种层次深度强化学习方法来学习不同时间尺度上运行的对话管理器，包括顶层对话策略、低层对话策略和全局状态跟踪器，实验结果表明该方法在模拟和真实用户的旅行规划任务中，相比于三个基于手工规则和基于平面深度强化学习的基准系统，有显著的改进。

Apr, 2017

基于角色感知奖励分解的多智能体面向任务的对话策略学习

本文介绍了一种采用多智能体对话策略学习的方法，用于同时训练系统和用户策略，并通过角色感知奖励分解和行为者 - 评论家框架提高预训练和可扩展性。结果表明，该方法能够通过对话交互，使两个智能体成功完成任务。

Apr, 2020

针对智能代理人自然语言交流的定期策略优化

提出一个可以通过联合推理视觉观察和语言输入来学习自然语言指令的新型策略优化算法，该训练范式提供了有效的探索和更好的泛化能力，相比现有的集成模型，我们提出的最佳模型在块世界环境中的执行错误率可以大幅降低超过 50％，同时还包括系统性的研究以展示我们 RL 算法的探索策略。

Jun, 2018

使用双阶段训练的策略网络用于对话系统

本文提出使用训练有优势 actor-critic 方法的深度策略网络统计优化对话系统，演示了在深度强化学习下优于高斯过程方法，可以有效地训练部分可观察马尔可夫决策过程的对话系统，有效提高学习速度，所有实验在 DSTC2 餐厅领域数据集上进行。

Jun, 2016

基于提示的蒙特卡罗树搜索用于面向目标的对话策略规划

提出 GDP-Zero，该方法使用 Open-Loop MCTS 进行目标导向的对话策略规划，不需要进行任何模型训练，其响应在交互式评估中被认为是 ChatGPT 的 59.32%，而在说服力方面更有优势。

May, 2023