后处理网络：使用强化学习优化管线任务定向对话系统的方法

Jul, 2022

后处理网络：使用强化学习优化管线任务定向对话系统的方法

Post-processing Networks: Method for Optimizing Pipeline Task-oriented Dialogue Systems using Reinforcement Learning

Atsumoto Ohashi, Ryuichiro Higashinaka

TL;DR本文提出了一种使用后处理网络，在不需要每个模块可微分的情况下进行强化学习，从而优化由任意方法实现的模块组成的对话系统的对话性能。通过多轮对话模拟和人类评估，证明了此方法可以提高由各种模块组成的管道系统的对话性能（使用 MultiWOZ 数据集）。

Abstract

Many studies have proposed methods for optimizing the dialogue performance of an entire pipeline task-oriented dialogue system by jointly training modules in the system using reinforcement learning. However, thes

dialogue performance pipeline system reinforcement learning post-processing networks multiwoz dataset

发现论文，激发创造

端到端任务完成神经对话系统

本文介绍了一种基于强化学习的新型端到端对话系统学习框架，用于解决模块化任务完成功能对话系统在训练和使用中面临的挑战。研究的实验表明，该端到端系统不仅在客观和主观评估中优于传统的模块化对话系统基线，而且在处理语言理解模块的各种误差时具有稳健性。

Mar, 2017

基于网络的端到端可训练任务导向式对话系统

本文介绍一种基于神经网络的端到端可训练的目标导向对话系统，以及一种新的数据收集方法，该方法基于一种新型的管道式 Wizard-of-Oz 框架。该方法可用于开发对话系统，帮助用户在餐厅搜索领域自然地交流并完成任务。

Apr, 2016

持续学习神经对话管理

提出了一种基于神经网络框架的分层学习方法，通过监督学习和强化学习相结合，实现了对话管理任务中的有效性以及在高噪声的情况下提高性能。

Jun, 2016

基于深度强化学习的任务导向对话模型端到端优化

介绍了一种基于神经网络的任务导向对话系统，可以使用深度强化学习进行端到端优化，可跟踪对话状态，与知识库交互，并将查询结果整合到代理人的响应中，以成功完成任务导向对话。

Nov, 2017

增强端到端多任务对话系统：内在动机强化学习算法的研究，以改善训练和适应性

通过采用内在激励强化学习算法来测量状态访问的频率和鼓励探索，本研究旨在改善对话系统的政策，继而有效提高性能指标并拓展领域范围。

Jan, 2024

使用双阶段训练的策略网络用于对话系统

本文提出使用训练有优势 actor-critic 方法的深度策略网络统计优化对话系统，演示了在深度强化学习下优于高斯过程方法，可以有效地训练部分可观察马尔可夫决策过程的对话系统，有效提高学习速度，所有实验在 DSTC2 餐厅领域数据集上进行。

Jun, 2016

通过对话策略和语言生成之间的替代优化构建面向任务的视觉对话系统

本研究提出一种新的框架，可有效学习任务导向视觉对话系统的最优对话策略，并在 GuessWhich 任务中实现了最新的任务完成和对话质量表现。

Sep, 2019

端到端可训练任务导向对话系统中的人类教学与反馈对话学习

本文提出了一种混合式学习方法以通过在线用户交互来训练任务导向型对话系统，该方法包括强化学习和模仿学习，通过神经网络来优化并能够从用户教学中进行学习。实验结果表明，该端到端对话代理能够有效地学习并通过用户反馈了解自己的错误，并在模仿学习阶段之后应用强化学习提高完成任务的能力。

Apr, 2018

目标驱动和视觉对话系统的全流程优化

本文介绍了一种基于深度强化学习的方法，使用策略梯度算法来优化基于任务且与视觉相关的对话，该方法在通过 Mechanical Turk 收集的 12 万个对话数据集上进行了测试，并提供了鼓舞人心的结果，可以解决生成自然对话和在复杂图像中发现特定对象的问题。

Mar, 2017

端到端可训练任务导向神经对话模型中的迭代策略学习

本文提出一种采用深度强化学习框架实现的迭代式对话策略优化方法，解决了当前学习对话策略的主流方法之一 - 与用户模拟器进行对话时模拟器可靠性低的难题，同时也极大地提高了任务成功率与任务奖励值。此方法可以广泛应用于端到端任务导向型对话系统中，其关键在于通过深度 RL 来同时优化对话代理和用户模拟器的对话策略，并且对话代理和用户模拟器均建立在端到端的神经网络模型上。

Sep, 2017