在嘈杂环境中学习鲁棒的对话策略

Dec, 2017

在嘈杂环境中学习鲁棒的对话策略

Learning Robust Dialog Policies in Noisy Environments

Maryam Fazel-Zarandi, Shang-Wen Li, Jin Cao, Jared Casale, Peter Henderson...

TL;DR本文旨在通过深度强化学习学习鲁棒的对话策略，从而恢复自动语音识别和自然语言理解错误，结果表明，我们使用用户模拟器生成的对话与人类生成的对话无法区分，并且嘈杂环境下学习到的策略可以比固定基于规则的策略更快地取得相同的执行成功率。

Abstract

Modern virtual personal assistants provide a convenient interface for completing daily tasks via voice commands. An important consideration for these assistants is the ability to recover from automatic speech recognitio

发现论文，激发创造

端到端可训练任务导向神经对话模型中的迭代策略学习

本文提出一种采用深度强化学习框架实现的迭代式对话策略优化方法，解决了当前学习对话策略的主流方法之一 - 与用户模拟器进行对话时模拟器可靠性低的难题，同时也极大地提高了任务成功率与任务奖励值。此方法可以广泛应用于端到端任务导向型对话系统中，其关键在于通过深度RL来同时优化对话代理和用户模拟器的对话策略，并且对话代理和用户模拟器均建立在端到端的神经网络模型上。

Sep, 2017

使用策略梯度的端到端离线目标导向型对话策略学习

本文提出了一种离线强化学习方法，可从未标注的语料库中学习，既可以在话语级别上进行优化又可以在对话级别上进行优化，解决了现有方法对话级别考虑不足的问题，并使用了一种新的奖励函数和在线/离线策略梯度来学习无需在线用户交互或显式状态空间定义的策略。

Dec, 2017

引导式对话策略学习：针对多领域任务导向型对话的奖励估计

该研究提出了一种基于对抗逆强化学习的引导式对话策略学习算法，该算法可以在多领域任务导向对话中进行奖励估计和策略优化，以实现有效的对话，并在多领域对话数据集上进行广泛实验。

Aug, 2019

无需对抗性学习的引导式对话策略学习

提出了一种将对抗训练分解成两步的方法，通过辅助对话生成器训练鉴别器并将派生的奖励模型整合到一种通用强化学习方法中，以引导对话策略学习。该方法适用于在线和离线强化学习方法，可获得显著的任务成功率，并有将知识从现有领域转移到新领域的潜力。

Apr, 2020

指引我们：从演示中学习对话管理

我们对第八次对话系统技术挑战赛的端到端多域对话跟踪进行了提交。我们的系统采用管道架构，包含自然语言理解、对话状态跟踪、对话管理和自然语言生成等组件。我们利用基于示范的深度 Q 学习强化学习算法来学习对话策略，并通过对话管理组件的评估表明该方法的有效性优于监督和强化学习基线模型。

Apr, 2020

对话管理综述：最新进展与挑战

本文综述了对话管理的三个关键主题：模型可扩展性的提高、对话策略学习的数据稀缺问题和训练效率的提高，以及它们对任务完成性能的影响。

May, 2020

离线强化学习下的以人为中心的对话训练

通过在线收集人类反馈数据，使用离线强化学习算法训练对话模型，识别并融合对话线索来产生更好的对话。

Oct, 2020

基于动作嵌入的多领域对话策略的强化学习

该研究提出使用跨领域数据的方法来优化强化学习中基于任务的对话策略并减少所需数据量，具体方法为学习领域无关的动作嵌入，这些嵌入能够更快速准确地在模拟环境中训练策略。

Jul, 2022

面向任务导向对话系统的异步更新强化学习框架

提出了异步更新强化学习框架（AURL），通过协作设置异步更新DST模块和DP模块，并实现课程学习以解决强化学习采样过程中不平衡数据分布的问题，并引入多个用户模型增加对话的多样性，实验表明，在公共数据集SSD-PHONE上，该方法使对话成功率提高了31.37%。

May, 2023

对话行为感知Transformer用于对话策略学习

利用预训练语言模型的纯文本知识，加速强化学习代理的学习速度，并通过探索对话行为空间最大化长期累积奖励，提出了一种对话行为感知的变压器编码器（DaTrans）。该模型通过在模拟器和人类评估中的验证展示了其有效性和高效性。

Sep, 2023