分布式结构化演员 - 评论家强化学习在通用对话管理中的应用

Sep, 2020

分布式结构化演员 - 评论家强化学习在通用对话管理中的应用

Distributed Structured Actor-Critic Reinforcement Learning for Universal Dialogue Management

Zhi Chen, Lu Chen, Xiaoyuan Liu, Kai Yu

TL;DR本篇论文主要探讨针对特定任务的语音对话系统，重点在于如何通过部分可观察的马尔可夫决策过程来制定对话策略，并以神经网络为函数逼近器的方式，探索深度强化学习算法在对话决策中的应用。

Abstract

The task-oriented spoken dialogue system (SDS) aims to assist a human user in accomplishing a specific task (e.g., hotel booking). The dialogue management is a core part of SDS. There are two main missions in

spoken dialogue system dialogue management markov decision process reinforcement learning neural networks

发现论文，激发创造

面向任务导向的对话策略学习中强化学习方法的最新进展和挑战综述

本文综述了基于强化学习的对话策略学习中的最新进展和挑战，并将近期方法归类为强化学习的基本元素，以期为未来的对话管理研究提供一些启示。

Feb, 2022

强化学习任务导向对话管理基准测试环境

本文旨在提供用于对话模型开发与评估的一组具有挑战性的模拟环境，其中包括常用的参数算法和非参数算法，并使用公共 PyDial 工具包实现了这些环境和策略模型，以建立一个实验测试平台并促进可重现性的实验。

Nov, 2017

持续学习神经对话管理

提出了一种基于神经网络框架的分层学习方法，通过监督学习和强化学习相结合，实现了对话管理任务中的有效性以及在高噪声的情况下提高性能。

Jun, 2016

层次深度强化学习下的复合任务完成对话策略学习

本文针对复杂任务对话代理的构建问题，如旅行规划，通过将任务公式化为基于马尔可夫决策过程的选项数学框架，并提出一种层次深度强化学习方法来学习不同时间尺度上运行的对话管理器，包括顶层对话策略、低层对话策略和全局状态跟踪器，实验结果表明该方法在模拟和真实用户的旅行规划任务中，相比于三个基于手工规则和基于平面深度强化学习的基准系统，有显著的改进。

Apr, 2017

对话管理综述：最新进展与挑战

本文综述了对话管理的三个关键主题：模型可扩展性的提高、对话策略学习的数据稀缺问题和训练效率的提高，以及它们对任务完成性能的影响。

May, 2020

基于深度强化学习的任务导向对话模型端到端优化

介绍了一种基于神经网络的任务导向对话系统，可以使用深度强化学习进行端到端优化，可跟踪对话状态，与知识库交互，并将查询结果整合到代理人的响应中，以成功完成任务导向对话。

Nov, 2017

基于深度强化学习的战略对话管理

本研究成功应用深度强化学习 (DRL) 训练具备谈判能力的智能策略代理程序，实验表明该程序与由人工设计的规则、随机等算法相比，获胜率提高至 53%。

Nov, 2015

SimpleDS：一种简单的深度强化学习对话系统

本文介绍了使用深度强化学习训练的简单，公开的对话系统 SimpleDS，该系统直接从上一个系统的原始文本和（嘈杂的）用户响应进行操作选择，避免了手动特征生成，并显示该方法可使智能交互代理的对话控制自动化程度更高。在 restaurant 领域，我们的初步成果表明，引导合理的对话行为是可能的。

Jan, 2016

使用双阶段训练的策略网络用于对话系统

本文提出使用训练有优势 actor-critic 方法的深度策略网络统计优化对话系统，演示了在深度强化学习下优于高斯过程方法，可以有效地训练部分可观察马尔可夫决策过程的对话系统，有效提高学习速度，所有实验在 DSTC2 餐厅领域数据集上进行。

Jun, 2016

通过对话策略和语言生成之间的替代优化构建面向任务的视觉对话系统

本研究提出一种新的框架，可有效学习任务导向视觉对话系统的最优对话策略，并在 GuessWhich 任务中实现了最新的任务完成和对话质量表现。

Sep, 2019