朝向自学习的端到端任务导向对话系统
该论文提出了一种用于端到端学习任务导向型对话系统的模型,主要组成部分是一种递归神经网络(LSTM),该网络将原始对话直接映射到系统动作的概率分布中,并且可以使用有目的、强化两种不同方式的优化方法。
Jun, 2016
本文提出一种采用深度强化学习框架实现的迭代式对话策略优化方法,解决了当前学习对话策略的主流方法之一 - 与用户模拟器进行对话时模拟器可靠性低的难题,同时也极大地提高了任务成功率与任务奖励值。此方法可以广泛应用于端到端任务导向型对话系统中,其关键在于通过深度RL来同时优化对话代理和用户模拟器的对话策略,并且对话代理和用户模拟器均建立在端到端的神经网络模型上。
Sep, 2017
本文提出了一种混合式学习方法以通过在线用户交互来训练任务导向型对话系统,该方法包括强化学习和模仿学习,通过神经网络来优化并能够从用户教学中进行学习。实验结果表明,该端到端对话代理能够有效地学习并通过用户反馈了解自己的错误,并在模仿学习阶段之后应用强化学习提高完成任务的能力。
Apr, 2018
本研究提出自我反馈聊天机器人,通过从参与的对话中提取新的训练样本和估计用户满意度来改进聊天机器人的对话能力,并在 PersonaChat chit-chat 数据集上进行实验得到了显著的性能提升。
Jan, 2019
该研究提出了一种可端到端训练的神经目标导向对话系统方法,能通过智能地将对话转移给人工服务代理来处理新用户行为。该方法的三个目标是:最大化用户任务成功率,最小化对人工服务代理的负担,并通过人工代理的反馈进行在线学习,以进一步减轻其负担。实验结果表明所提出的方法能够有效实现这些目标。
Jul, 2019
该研究提出了一种基于对抗逆强化学习的引导式对话策略学习算法,该算法可以在多领域任务导向对话中进行奖励估计和策略优化,以实现有效的对话,并在多领域对话数据集上进行广泛实验。
Aug, 2019
本文介绍了一种采用多智能体对话策略学习的方法,用于同时训练系统和用户策略,并通过角色感知奖励分解和行为者-评论家框架提高预训练和可扩展性。结果表明,该方法能够通过对话交互,使两个智能体成功完成任务。
Apr, 2020
本研究利用强化学习技术结合最先进的自然语言理解模型创造了一个实时的对话系统,并在使用谷歌智能助手的实验中,使用众包数据进行训练,显著超越了强化模型,证明其对于自然人对话有较高的开放性和可行性。
Jul, 2022