本文提出了一种离线强化学习方法,可从未标注的语料库中学习,既可以在话语级别上进行优化又可以在对话级别上进行优化,解决了现有方法对话级别考虑不足的问题,并使用了一种新的奖励函数和在线 / 离线策略梯度来学习无需在线用户交互或显式状态空间定义的策略。
Dec, 2017
提出了一种将对抗训练分解成两步的方法,通过辅助对话生成器训练鉴别器并将派生的奖励模型整合到一种通用强化学习方法中,以引导对话策略学习。该方法适用于在线和离线强化学习方法,可获得显著的任务成功率,并有将知识从现有领域转移到新领域的潜力。
Apr, 2020
该论文提出了两种基于 Hindsight experience replay 的复杂方法,以解决对话学习中由于奖励稀疏和早期学习阶段成功对话次数的不足导致的对话策略学习困难问题。与现有的经验重放方法相比,该方法在学习速度上有更好的表现。
Aug, 2018
本文综述了基于强化学习的对话策略学习中的最新进展和挑战,并将近期方法归类为强化学习的基本元素,以期为未来的对话管理研究提供一些启示。
Feb, 2022
本文介绍了一种采用多智能体对话策略学习的方法,用于同时训练系统和用户策略,并通过角色感知奖励分解和行为者 - 评论家框架提高预训练和可扩展性。结果表明,该方法能够通过对话交互,使两个智能体成功完成任务。
本文使用迁移学习方法改善目标导向聊天机器人的高质量训练数据的不足,以提高其成功率,并展示该方法与其他处理方法的综合应用可取得最佳结果。
Feb, 2018
本文提出了一种新颖的对抗式逆强化学习算法,使用条件化语言政策和奖励函数,以及使用变分目标生成器提高学习策略和奖励函数的泛化性,从而使自然语言变得可用于指导智能体任务的目标, 获得了非常好的性能表现。
Aug, 2020
本文介绍了一种使用对抗性学习方法进行奖励估计的强化学习(RL)的任务导向型对话模型,该方法在一个餐厅搜索场景中实现了较高的对话成功率。
May, 2018
本文介绍了一种通过分析对话策略和奖励估计器的目标函数,从而消除对抗性学习对奖励估计和对话策略学习的影响,同时保留其优势的方法,该方法在 MultiWOZ 等多域任务为导向的对话语料库上进行了检验。
Jul, 2023
本文设计了一个目标导向的交互式系统,儿童可以通过诸如 “见面打招呼” 和 “Simon 说” 游戏等一系列交互活动与代理互动。研究人员探索了各种特征提取器和模型,以提高意图识别精度,并借助注意力模型等新颖的方式利用先前的用户和系统互动来进行对话适应,从有限的训练数据中引导学习的模型具有更好的性能。
Dec, 2019