通过随机奖励估计的半监督对话策略学习

May, 2020

通过随机奖励估计的半监督对话策略学习

Semi-Supervised Dialogue Policy Learning via Stochastic Reward Estimation

Xinting Huang, Jianzhong Qi, Yu Sun, Rui Zhang

TL;DR本文提出了用于半监督策略学习的新型奖励学习方法，该方法借助动态模型来计算奖励值，并结合动作嵌入进行奖励函数的泛化，从而优于其他竞争性策略学习基线，适用于任务导向型对话系统。

Abstract

dialogue policy optimization often obtains feedback until task completion in task-oriented dialogue systems. This is insufficient for training intermediate dialogue turns since supervision signals (or rewards) ar

dialogue policy optimization reward learning semi-supervised policy learning dynamics model task-oriented dialogue systems

发现论文，激发创造

引导式对话策略学习：针对多领域任务导向型对话的奖励估计

该研究提出了一种基于对抗逆强化学习的引导式对话策略学习算法，该算法可以在多领域任务导向对话中进行奖励估计和策略优化，以实现有效的对话，并在多领域对话数据集上进行广泛实验。

Aug, 2019

无需对抗性学习的引导式对话策略学习

提出了一种将对抗训练分解成两步的方法，通过辅助对话生成器训练鉴别器并将派生的奖励模型整合到一种通用强化学习方法中，以引导对话策略学习。该方法适用于在线和离线强化学习方法，可获得显著的任务成功率，并有将知识从现有领域转移到新领域的潜力。

Apr, 2020

口语对话系统中基于在线主动奖励学习的策略优化

该论文提出了一种在线学习框架，其中对话策略通过使用高斯过程模型进行主动学习来一起与奖励模型进行联合训练。这个高斯过程是在使用递归神经网络编码器 - 解码器以无监督的方式生成的连续空间对话表示上操作的，旨在显著减少数据注释成本并减轻对话策略学习中的嘈杂用户反馈。

May, 2016

为什么导向式对话策略学习表现良好？理解对抗性学习及其替代方案的作用

本文介绍了一种通过分析对话策略和奖励估计器的目标函数，从而消除对抗性学习对奖励估计和对话策略学习的影响，同时保留其优势的方法，该方法在 MultiWOZ 等多域任务为导向的对话语料库上进行了检验。

Jul, 2023

基于角色感知奖励分解的多智能体面向任务的对话策略学习

本文介绍了一种采用多智能体对话策略学习的方法，用于同时训练系统和用户策略，并通过角色感知奖励分解和行为者 - 评论家框架提高预训练和可扩展性。结果表明，该方法能够通过对话交互，使两个智能体成功完成任务。

Apr, 2020

离线强化学习的半监督奖励学习

通过半监督学习算法，探索在人类奖励注释最小的约束下进行奖励学习，从而在缺少奖励函数的情况下培训机器人行为，并发现奖励模型的质量与最终策略之间的关系。

Dec, 2020

奖励关键之处：面向任务的对话的逐步强化学习

通过引入逐步奖励机制，我们的方法在理解和生成任务中对强化学习进行了扩展，实现了平衡优化，提高了任务导向对话系统的性能，并在包括 MultiWOZ2.0、MultiWOZ2.1 和 In-Car 在内的三个广泛使用的数据集上取得了新的最先进结果。与现有模型相比，我们的方法还展现了在低资源环境中的出色少样本能力。

Jun, 2024

基于用户反馈日志的多轮对话策略学习

本文提出了一种基于 BanditMatch 的多动作对话策略学习方法，通过利用显式和隐式的转折用户反馈来提高策略学习效果，该方法综合了半监督学习和万能学习的混合目标。

Feb, 2023

面向任务的神经对话模型的对抗学习

本文介绍了一种使用对抗性学习方法进行奖励估计的强化学习（RL）的任务导向型对话模型，该方法在一个餐厅搜索场景中实现了较高的对话成功率。

May, 2018

面向任务建模的对话状态跟踪的半监督引导

本文研究了利用半监督学习方法在构建神经对话系统时可以减少中间标签的数量，发现可以利用未注释数据来显著减少对话状态的转换级别注释，同时在 MultiWOZ 语料库上进行了分析并提出了第一个端到端的对话模型。

Nov, 2019