本文提出一种采用深度强化学习框架实现的迭代式对话策略优化方法,解决了当前学习对话策略的主流方法之一 - 与用户模拟器进行对话时模拟器可靠性低的难题,同时也极大地提高了任务成功率与任务奖励值。此方法可以广泛应用于端到端任务导向型对话系统中,其关键在于通过深度RL来同时优化对话代理和用户模拟器的对话策略,并且对话代理和用户模拟器均建立在端到端的神经网络模型上。
Sep, 2017
本文提出了一种离线强化学习方法,可从未标注的语料库中学习,既可以在话语级别上进行优化又可以在对话级别上进行优化,解决了现有方法对话级别考虑不足的问题,并使用了一种新的奖励函数和在线/离线策略梯度来学习无需在线用户交互或显式状态空间定义的策略。
Dec, 2017
该研究提出了一种基于对抗逆强化学习的引导式对话策略学习算法,该算法可以在多领域任务导向对话中进行奖励估计和策略优化,以实现有效的对话,并在多领域对话数据集上进行广泛实验。
Aug, 2019
提出了一种将对抗训练分解成两步的方法,通过辅助对话生成器训练鉴别器并将派生的奖励模型整合到一种通用强化学习方法中,以引导对话策略学习。该方法适用于在线和离线强化学习方法,可获得显著的任务成功率,并有将知识从现有领域转移到新领域的潜力。
Apr, 2020
我们对第八次对话系统技术挑战赛的端到端多域对话跟踪进行了提交。我们的系统采用管道架构,包含自然语言理解、对话状态跟踪、对话管理和自然语言生成等组件。我们利用基于示范的深度 Q 学习强化学习算法来学习对话策略,并通过对话管理组件的评估表明该方法的有效性优于监督和强化学习基线模型。
本文综述了对话管理的三个关键主题:模型可扩展性的提高、对话策略学习的数据稀缺问题和训练效率的提高,以及它们对任务完成性能的影响。
May, 2020
通过在线收集人类反馈数据,使用离线强化学习算法训练对话模型,识别并融合对话线索来产生更好的对话。
Oct, 2020
该研究提出使用跨领域数据的方法来优化强化学习中基于任务的对话策略并减少所需数据量,具体方法为学习领域无关的动作嵌入,这些嵌入能够更快速准确地在模拟环境中训练策略。
Jul, 2022
提出了异步更新强化学习框架(AURL),通过协作设置异步更新DST模块和DP模块,并实现课程学习以解决强化学习采样过程中不平衡数据分布的问题,并引入多个用户模型增加对话的多样性,实验表明,在公共数据集SSD-PHONE上,该方法使对话成功率提高了31.37%。
May, 2023
利用预训练语言模型的纯文本知识,加速强化学习代理的学习速度,并通过探索对话行为空间最大化长期累积奖励,提出了一种对话行为感知的变压器编码器(DaTrans)。该模型通过在模拟器和人类评估中的验证展示了其有效性和高效性。
Sep, 2023