面向任务的神经对话模型的对抗学习
提出了一种将对抗训练分解成两步的方法,通过辅助对话生成器训练鉴别器并将派生的奖励模型整合到一种通用强化学习方法中,以引导对话策略学习。该方法适用于在线和离线强化学习方法,可获得显著的任务成功率,并有将知识从现有领域转移到新领域的潜力。
Apr, 2020
该研究提出了一种基于对抗逆强化学习的引导式对话策略学习算法,该算法可以在多领域任务导向对话中进行奖励估计和策略优化,以实现有效的对话,并在多领域对话数据集上进行广泛实验。
Aug, 2019
本文提出了一种基于对抗训练的方法用于生成开放领域对话,该系统的对话和人类对话几乎无法区分。作者将问题转化为一个强化学习问题,同时训练一个生成模型和一个鉴别器,用于评估生成的对话是否和人类对话相似,并将鉴别器的输出作为奖励信号,并进一步提出了一种评估模型 - 对抗性评估模型,该模型可避免一系列潜在的问题。实验结果表明,基于对抗训练的系统生成的响应比先前的基线模型更具参考价值。
Jan, 2017
本文介绍了一种通过分析对话策略和奖励估计器的目标函数,从而消除对抗性学习对奖励估计和对话策略学习的影响,同时保留其优势的方法,该方法在 MultiWOZ 等多域任务为导向的对话语料库上进行了检验。
Jul, 2023
本文提出一种采用深度强化学习框架实现的迭代式对话策略优化方法,解决了当前学习对话策略的主流方法之一 - 与用户模拟器进行对话时模拟器可靠性低的难题,同时也极大地提高了任务成功率与任务奖励值。此方法可以广泛应用于端到端任务导向型对话系统中,其关键在于通过深度 RL 来同时优化对话代理和用户模拟器的对话策略,并且对话代理和用户模拟器均建立在端到端的神经网络模型上。
Sep, 2017
本文综述了基于强化学习的对话策略学习中的最新进展和挑战,并将近期方法归类为强化学习的基本元素,以期为未来的对话管理研究提供一些启示。
Feb, 2022
采用对抗训练的用户模拟器能够生成更加真实和多样化的用户行为数据,并用于训练对话系统中的策略,相比于最大似然的模拟器,能够显著提高对话系统的成功率。
Jun, 2023
介绍了一种基于神经网络的任务导向对话系统,可以使用深度强化学习进行端到端优化,可跟踪对话状态,与知识库交互,并将查询结果整合到代理人的响应中,以成功完成任务导向对话。
Nov, 2017
本文提出了一种混合式学习方法以通过在线用户交互来训练任务导向型对话系统,该方法包括强化学习和模仿学习,通过神经网络来优化并能够从用户教学中进行学习。实验结果表明,该端到端对话代理能够有效地学习并通过用户反馈了解自己的错误,并在模仿学习阶段之后应用强化学习提高完成任务的能力。
Apr, 2018