无需对抗性学习的引导式对话策略学习

Apr, 2020

无需对抗性学习的引导式对话策略学习

Guided Dialog Policy Learning without Adversarial Learning in the Loop

Ziming Li, Sungjin Lee, Baolin Peng, Jinchao Li, Julia Kiseleva...

TL;DR提出了一种将对抗训练分解成两步的方法，通过辅助对话生成器训练鉴别器并将派生的奖励模型整合到一种通用强化学习方法中，以引导对话策略学习。该方法适用于在线和离线强化学习方法，可获得显著的任务成功率，并有将知识从现有领域转移到新领域的潜力。

Abstract

reinforcement learning (RL) methods have emerged as a popular choice for training an efficient and effective dialogue policy. However, these methods suffer from sparse and unstable reward signals returned by a us

reinforcement learning dialogue policy adversarial learning reward function auxiliary dialogue generator

发现论文，激发创造

为什么导向式对话策略学习表现良好？理解对抗性学习及其替代方案的作用

本文介绍了一种通过分析对话策略和奖励估计器的目标函数，从而消除对抗性学习对奖励估计和对话策略学习的影响，同时保留其优势的方法，该方法在 MultiWOZ 等多域任务为导向的对话语料库上进行了检验。

Jul, 2023

面向任务的神经对话模型的对抗学习

本文介绍了一种使用对抗性学习方法进行奖励估计的强化学习（RL）的任务导向型对话模型，该方法在一个餐厅搜索场景中实现了较高的对话成功率。

May, 2018

对话生成：从模仿学习到逆强化学习

通过采用敌对模仿学习和敌对逆强化学习的方法，提出了一种新的对话生成奖励模型，可用于更精确地指导生成器训练，实验结果表明其有效性。

Dec, 2018

引导式对话策略学习：针对多领域任务导向型对话的奖励估计

该研究提出了一种基于对抗逆强化学习的引导式对话策略学习算法，该算法可以在多领域任务导向对话中进行奖励估计和策略优化，以实现有效的对话，并在多领域对话数据集上进行广泛实验。

Aug, 2019

基于角色感知奖励分解的多智能体面向任务的对话策略学习

本文介绍了一种采用多智能体对话策略学习的方法，用于同时训练系统和用户策略，并通过角色感知奖励分解和行为者 - 评论家框架提高预训练和可扩展性。结果表明，该方法能够通过对话交互，使两个智能体成功完成任务。

Apr, 2020

使用策略梯度的端到端离线目标导向型对话策略学习

本文提出了一种离线强化学习方法，可从未标注的语料库中学习，既可以在话语级别上进行优化又可以在对话级别上进行优化，解决了现有方法对话级别考虑不足的问题，并使用了一种新的奖励函数和在线 / 离线策略梯度来学习无需在线用户交互或显式状态空间定义的策略。

Dec, 2017

口语对话系统中基于在线主动奖励学习的策略优化

该论文提出了一种在线学习框架，其中对话策略通过使用高斯过程模型进行主动学习来一起与奖励模型进行联合训练。这个高斯过程是在使用递归神经网络编码器 - 解码器以无监督的方式生成的连续空间对话表示上操作的，旨在显著减少数据注释成本并减轻对话策略学习中的嘈杂用户反馈。

May, 2016

面向任务导向的对话策略学习中强化学习方法的最新进展和挑战综述

本文综述了基于强化学习的对话策略学习中的最新进展和挑战，并将近期方法归类为强化学习的基本元素，以期为未来的对话管理研究提供一些启示。

Feb, 2022

用于开放领域对话的分层强化学习

本文提出使用分层强化学习（VHRL）框架对基于变分序列模型的话语级嵌入进行策略梯度调整的新方法，以优化开放域对话生成。使用自我对弈和强化学习优化人类中心的会话指标，与包括变形金刚在内的最先进的对话模型相比，证明我们的方法在人类评估和自动指标方面提供显着的改进。

Sep, 2019

端到端可训练任务导向神经对话模型中的迭代策略学习

本文提出一种采用深度强化学习框架实现的迭代式对话策略优化方法，解决了当前学习对话策略的主流方法之一 - 与用户模拟器进行对话时模拟器可靠性低的难题，同时也极大地提高了任务成功率与任务奖励值。此方法可以广泛应用于端到端任务导向型对话系统中，其关键在于通过深度 RL 来同时优化对话代理和用户模拟器的对话策略，并且对话代理和用户模拟器均建立在端到端的神经网络模型上。

Sep, 2017