大型领域对话管理中的封建强化学习
本文提出使用分层强化学习(VHRL)框架对基于变分序列模型的话语级嵌入进行策略梯度调整的新方法,以优化开放域对话生成。使用自我对弈和强化学习优化人类中心的会话指标,与包括变形金刚在内的最先进的对话模型相比,证明我们的方法在人类评估和自动指标方面提供显着的改进。
Sep, 2019
本文提出在多领域对话管理中使用分层强化学习和选项框架的方法,并且与现有平面方法相比学习速度更快且得到更好的结果,同时展示预训练策略如何适应更复杂的对话系统并为更复杂的多领域对话系统提供政策优化的可能性。
Jun, 2017
本研究提出一种基于 Deep Q-learning from Demonstrations 的 Reinforced Fine-tune Learning 方法,利用 labeled、reduced-labeled 和 unlabeled data 训练 expert demonstrators,以解决多领域对话系统中 state 和 action 空间较大的问题,并在实验中取得了较高的成功率。
Apr, 2020
本文提出了一种用于多域对话政策学习的 NDQN 方法,与传统的 Deep Q-Networks(DQN)相比,实验结果表明其具有更好的可扩展性,有望优化多域对话系统的行为。
Nov, 2016
本研究提出一种新的框架,可有效学习任务导向视觉对话系统的最优对话策略,并在 GuessWhich 任务中实现了最新的任务完成和对话质量表现。
Sep, 2019
本文提出了一种新的深度强化学习框架 FedRL,旨在联邦地建立高质量的代理模型,其中考虑到其隐私,并通过利用高斯微分来保护数据和模型的隐私。在 Grid-world 和 Text2Action 领域的实验中,该框架与各种基线模型进行了比较。
Jan, 2019
该研究提出了一种基于对抗逆强化学习的引导式对话策略学习算法,该算法可以在多领域任务导向对话中进行奖励估计和策略优化,以实现有效的对话,并在多领域对话数据集上进行广泛实验。
Aug, 2019
本篇论文主要探讨针对特定任务的语音对话系统,重点在于如何通过部分可观察的马尔可夫决策过程来制定对话策略,并以神经网络为函数逼近器的方式,探索深度强化学习算法在对话决策中的应用。
Sep, 2020
通过引入逐步奖励机制,我们的方法在理解和生成任务中对强化学习进行了扩展,实现了平衡优化,提高了任务导向对话系统的性能,并在包括 MultiWOZ2.0、MultiWOZ2.1 和 In-Car 在内的三个广泛使用的数据集上取得了新的最先进结果。与现有模型相比,我们的方法还展现了在低资源环境中的出色少样本能力。
Jun, 2024