对话管理综述:最新进展与挑战
本文提出一种采用深度强化学习框架实现的迭代式对话策略优化方法,解决了当前学习对话策略的主流方法之一 - 与用户模拟器进行对话时模拟器可靠性低的难题,同时也极大地提高了任务成功率与任务奖励值。此方法可以广泛应用于端到端任务导向型对话系统中,其关键在于通过深度RL来同时优化对话代理和用户模拟器的对话策略,并且对话代理和用户模拟器均建立在端到端的神经网络模型上。
Sep, 2017
本文旨在提供用于对话模型开发与评估的一组具有挑战性的模拟环境,其中包括常用的参数算法和非参数算法,并使用公共PyDial工具包实现了这些环境和策略模型,以建立一个实验测试平台并促进可重现性的实验。
Nov, 2017
该研究提出了一种基于对抗逆强化学习的引导式对话策略学习算法,该算法可以在多领域任务导向对话中进行奖励估计和策略优化,以实现有效的对话,并在多领域对话数据集上进行广泛实验。
Aug, 2019
我们对第八次对话系统技术挑战赛的端到端多域对话跟踪进行了提交。我们的系统采用管道架构,包含自然语言理解、对话状态跟踪、对话管理和自然语言生成等组件。我们利用基于示范的深度 Q 学习强化学习算法来学习对话策略,并通过对话管理组件的评估表明该方法的有效性优于监督和强化学习基线模型。
Apr, 2020
本文提出了一种多层次奖励建模方法,以分解整个奖励信号并提高对话系统在强化学习方面的性能,实验结果表明本方法能提高对话系统的性能和收敛速度。
Apr, 2021
本文综述了基于强化学习的对话策略学习中的最新进展和挑战,并将近期方法归类为强化学习的基本元素,以期为未来的对话管理研究提供一些启示。
Feb, 2022
本文提出了一种基于BanditMatch的多动作对话策略学习方法,通过利用显式和隐式的转折用户反馈来提高策略学习效果,该方法综合了半监督学习和万能学习的混合目标。
Feb, 2023
提出了异步更新强化学习框架(AURL),通过协作设置异步更新DST模块和DP模块,并实现课程学习以解决强化学习采样过程中不平衡数据分布的问题,并引入多个用户模型增加对话的多样性,实验表明,在公共数据集SSD-PHONE上,该方法使对话成功率提高了31.37%。
May, 2023
本文介绍了一种通过分析对话策略和奖励估计器的目标函数,从而消除对抗性学习对奖励估计和对话策略学习的影响,同时保留其优势的方法,该方法在MultiWOZ等多域任务为导向的对话语料库上进行了检验。
Jul, 2023
基于Deep Dyna-Q (DDQ)模型的好奇心驱动的课程学习框架,通过计划学习和好奇心的引入,在任务导向的对话代理培训过程中获得显著改进,并发现了易先与难先策略更适合SC-DDQ和DDQ。
Jan, 2024