该研究提出了一种基于对抗逆强化学习的引导式对话策略学习算法,该算法可以在多领域任务导向对话中进行奖励估计和策略优化,以实现有效的对话,并在多领域对话数据集上进行广泛实验。
Aug, 2019
提出了一种将对抗训练分解成两步的方法,通过辅助对话生成器训练鉴别器并将派生的奖励模型整合到一种通用强化学习方法中,以引导对话策略学习。该方法适用于在线和离线强化学习方法,可获得显著的任务成功率,并有将知识从现有领域转移到新领域的潜力。
Apr, 2020
该论文提出了一种在线学习框架,其中对话策略通过使用高斯过程模型进行主动学习来一起与奖励模型进行联合训练。这个高斯过程是在使用递归神经网络编码器 - 解码器以无监督的方式生成的连续空间对话表示上操作的,旨在显著减少数据注释成本并减轻对话策略学习中的嘈杂用户反馈。
May, 2016
本文介绍了一种通过分析对话策略和奖励估计器的目标函数,从而消除对抗性学习对奖励估计和对话策略学习的影响,同时保留其优势的方法,该方法在 MultiWOZ 等多域任务为导向的对话语料库上进行了检验。
Jul, 2023
本文介绍了一种采用多智能体对话策略学习的方法,用于同时训练系统和用户策略,并通过角色感知奖励分解和行为者 - 评论家框架提高预训练和可扩展性。结果表明,该方法能够通过对话交互,使两个智能体成功完成任务。
通过半监督学习算法,探索在人类奖励注释最小的约束下进行奖励学习,从而在缺少奖励函数的情况下培训机器人行为,并发现奖励模型的质量与最终策略之间的关系。
Dec, 2020
通过引入逐步奖励机制,我们的方法在理解和生成任务中对强化学习进行了扩展,实现了平衡优化,提高了任务导向对话系统的性能,并在包括 MultiWOZ2.0、MultiWOZ2.1 和 In-Car 在内的三个广泛使用的数据集上取得了新的最先进结果。与现有模型相比,我们的方法还展现了在低资源环境中的出色少样本能力。
Jun, 2024
本文提出了一种基于 BanditMatch 的多动作对话策略学习方法,通过利用显式和隐式的转折用户反馈来提高策略学习效果,该方法综合了半监督学习和万能学习的混合目标。
Feb, 2023
本文介绍了一种使用对抗性学习方法进行奖励估计的强化学习(RL)的任务导向型对话模型,该方法在一个餐厅搜索场景中实现了较高的对话成功率。
May, 2018
本文研究了利用半监督学习方法在构建神经对话系统时可以减少中间标签的数量,发现可以利用未注释数据来显著减少对话状态的转换级别注释,同时在 MultiWOZ 语料库上进行了分析并提出了第一个端到端的对话模型。
Nov, 2019