层次深度强化学习下的复合任务完成对话策略学习

Apr, 2017

层次深度强化学习下的复合任务完成对话策略学习

Composite Task-Completion Dialogue Policy Learning via Hierarchical Deep Reinforcement Learning

Baolin Peng, Xiujun Li, Lihong Li, Jianfeng Gao, Asli Celikyilmaz...

TL;DR本文针对复杂任务对话代理的构建问题，如旅行规划，通过将任务公式化为基于马尔可夫决策过程的选项数学框架，并提出一种层次深度强化学习方法来学习不同时间尺度上运行的对话管理器，包括顶层对话策略、低层对话策略和全局状态跟踪器，实验结果表明该方法在模拟和真实用户的旅行规划任务中，相比于三个基于手工规则和基于平面深度强化学习的基准系统，有显著的改进。

Abstract

Building a dialogue agent to fulfill complex tasks, such as travel planning, is challenging because the agent has to learn to collectively

dialogue agent complex tasks markov decision processes hierarchical deep reinforcement learning travel planning

发现论文，激发创造

分层对话策略学习的子目标发现

提出了一种分而治之的方法，利用 Subgoal Discovery Network 将复杂目标定向任务分解为一组较简单的子目标，并使用这些子目标通过分层强化学习来学习多级策略，建立了对话代理程序，已应用于旅行计划中，其学习到的子目标通常易于被人理解。

Apr, 2018

分布式结构化演员 - 评论家强化学习在通用对话管理中的应用

本篇论文主要探讨针对特定任务的语音对话系统，重点在于如何通过部分可观察的马尔可夫决策过程来制定对话策略，并以神经网络为函数逼近器的方式，探索深度强化学习算法在对话决策中的应用。

Sep, 2020

基于分层强化学习的对话管理子域建模

本文提出在多领域对话管理中使用分层强化学习和选项框架的方法，并且与现有平面方法相比学习速度更快且得到更好的结果，同时展示预训练策略如何适应更复杂的对话系统并为更复杂的多领域对话系统提供政策优化的可能性。

Jun, 2017

基于深度强化学习的任务导向对话模型端到端优化

介绍了一种基于神经网络的任务导向对话系统，可以使用深度强化学习进行端到端优化，可跟踪对话状态，与知识库交互，并将查询结果整合到代理人的响应中，以成功完成任务导向对话。

Nov, 2017

使用图神经网络的结构化分层对话策略

通过引入计算图神经网络，本文提出了可用于解决餐厅预订等复合型任务的层次式深度强化学习新方法，并在实验中展示其相较于传统方法更高的采样效率、更好的噪声抵抗力和更好的模型迁移性能。

Sep, 2020

面向任务导向的对话策略学习中强化学习方法的最新进展和挑战综述

本文综述了基于强化学习的对话策略学习中的最新进展和挑战，并将近期方法归类为强化学习的基本元素，以期为未来的对话管理研究提供一些启示。

Feb, 2022

面向任务的多模态层次强化学习策略：视觉对话

通过多模态层次强化学习框架和状态适应技术，实现了语音和图像的目标驱动对话。在图像猜谜游戏中进行了实验，取得了良好的效果。

May, 2018

跨对话任务的少样本通用化

我们提出使用 Recurrent Embedding Dialogue Policy（REDP）和 Neural Turing Machine 技术，对机器人会话管理进行研究。研究结果表明 REDP 能够有效地处理顾客的不良行为，并在 bAbI 对话任务中实现了 100％的测试准确率。

Nov, 2018

深度 Dynq-Q: 任务完成对话策略学习中计划的集成

通过 Deep Dyna-Q 的强化学习框架进行对话策略学习，将对真实用户的模拟与生成的体验相结合，应用于模拟和 Human in the loop 设置中的电影票预订任务。

Jan, 2018

端到端可训练任务导向神经对话模型中的迭代策略学习

本文提出一种采用深度强化学习框架实现的迭代式对话策略优化方法，解决了当前学习对话策略的主流方法之一 - 与用户模拟器进行对话时模拟器可靠性低的难题，同时也极大地提高了任务成功率与任务奖励值。此方法可以广泛应用于端到端任务导向型对话系统中，其关键在于通过深度 RL 来同时优化对话代理和用户模拟器的对话策略，并且对话代理和用户模拟器均建立在端到端的神经网络模型上。

Sep, 2017