该研究论文介绍了用于电影预订领域的用户模拟器,它利用规则和收集到的数据,并支持电影票预订和电影寻找两个任务。为了实现对对话框架的经验算法比较,论文提出了一种新的模拟框架,展示了多个代理的思路,并详细介绍了将自己的代理添加到所提出的框架中进行测试的过程。
Dec, 2016
提出了一个基于 POMDP 的迁移学习框架 PETAL,该框架可以将多个用户的数据作为源域,个人用户的数据作为目标域进行适应,来学习个性化的任务导向式对话系统,展现了针对不同用户采取不同合适动作的行为结果,从而有效地提高了个性化情境下的对话质量。
Oct, 2016
本文介绍了一种采用多智能体对话策略学习的方法,用于同时训练系统和用户策略,并通过角色感知奖励分解和行为者 - 评论家框架提高预训练和可扩展性。结果表明,该方法能够通过对话交互,使两个智能体成功完成任务。
Apr, 2020
使用多维方法对话管理加速训练,通过预先训练的任务无关策略来实现转移学习,从而在有限的训练数据下实现更好的性能,人工用户评估表明多维系统(针对目标情境的有限训练数据进行适应)比一维基准(在同样的训练数据上不进行适应)提高了 7%的成功率。
Apr, 2022
DAUS 是一种基于大型语言模型的领域感知用户模拟器,通过在真实的面向任务对话示例上进行微调,显著提高用户目标的实现,并有效减少模拟器回应中的不一致性来源。
Feb, 2024
本研究旨在探讨使用结构化政策提高在多领域和多任务环境下的强化学习样本效率。作者在测试不同结构化水平时,发现图形神经网络具有优势,且建议未来的研究应聚焦于连接人类数据、模拟器和自动评估器。
Feb, 2023
为了推动自动化任务导向对话系统的评估,本研究提出了一种基于预训练语言模型的新型用户模拟器,并通过上下文学习来生成具有鲁棒性和语言多样性的输出,以模拟人类对话行为。通过与现有对话系统交互,并收集人机交互数据集,验证了该用户模拟器在单一意图对话目标方面的表现与人类相似。
Sep, 2023
本文提出了一种采用零样本迁移学习的技术,通过从域本体和抽象对话模型中合成所有域内训练数据,对多域对话状态跟踪进行了改进,表明对话状态跟踪中的数据增强可以提高 TRADE 模型和基于 BERT 的 SUMBT 模型在 MultiWOZ2.1 数据集上零样本学习的准确性,并表明只用合成的域内数据对 SUMBT 模型进行训练,可以达到全局数据集训练的 2/3 的准确度,文章的方法还提高了领域之间的平均零样本学习水平达到 21%
May, 2020
本文提出了一种新型的对话收集框架,名为 NeuralWOZ,该框架使用基于模型的对话模拟,并且使用 collector 和 labeler 两个模型,其中 collector 生成对话,而 labeler 则将生成的对话进行注释并将注释形成为一个多项选择问题。这个方法在对话状态跟踪的零样例转移学习中表现出了很好的效果,产生的合成对话语料库在多个领域上以 4.4%的联合目标准确度和 5.7%的待测试覆盖率的改善实现了新的最高水平。
May, 2021
本文提出修改对话系统,使其能够学习的方法,并讨论了如何从对话中提取知识、更新代理的语义网络并以行动和观察为基础。希望引起人们对该领域的关注,并成为未来研究的重点。
Feb, 2022