DialDoc21 中的 CAiRE:面向信息获取对话系统的数据增强
该研究通过四种自动方法在单词和句子级别上增强数据,提高目标导向对话模型的数据效果,并在两个数据集上进行实验,结果表明四种数据扩充方法在 Success F1 score 方面均能显著提高。进一步分析确认,增加用户话语的多样性可以使端到端模型学习特征更为稳健。
Dec, 2019
我们提出了一种新颖的基于 AI 的聊天机器人学习模式,用户通过与教师机器人的对话获取信息和知识。我们的系统使用了一种新型加强自我对话模式,在不同领域之间实现知识传递和关注用户的对话。我们在三个大型公共数据语料库上进行了广泛的主客观评估,证明了我们的系统在传递知识和关注用户方面的有效性,帮助用户在不阅读文章的情况下大大提高知识水平。
May, 2022
我们开发了一种新型的对话扩充模型,通过完整的对话上下文生成用户的回合,并通过语言模型的新提示设计和输出重新排序,所生成对话可直接用于训练下游对话系统,在常见的基准数据集 MultiWoZ 和 SGD 上,展示了我们的对话扩充模型生成高质量对话并使对话成功率较基准线提高多达 8%。
Oct, 2023
研究了应用数据增强和改进 NLU 模型对于在基于游戏学习场景中帮助儿童学习数学基本概念的多模式对话系统的有效性,得到了使用小型数据集进行 MITL 策略下的改写的良好表现。
May, 2022
本研究针对面向任务对话系统中语言理解的数据增强问题,提出了基于序列到序列生成的数据增强框架来提高模型的性能,该框架利用训练数据中某个话语的同义替代品来增强数据,将多样性排名纳入话语表示中,生成多样性增加的话语,实验证明在仅有数百个话语的情况下,在 Airline Travel Information System 数据集和 Stanford Multi-turn,Multidomain Dialogue 数据集上都取得了显著的 6.38 和 10.04 分数提高。
Jul, 2018
本文介绍了我们在第十届对话系统技术挑战赛第二轨知识引导的任务导向对话建模中的提交内容。在适应 ASR 转录的噪声方面探索不同的方法来使得模型更加健壮,并采用噪声通道模型来适应口语交流的风格。我们的最佳系统在挑战的自动和人工评估中分别排名第一和第三。
Dec, 2021
本研究针对限定领域 API 的局限性,采用一种基于查询 - 选择 - 回应的方法,引入了外部非结构化知识资源,通过对话上下文信息的提取和增强实现了对超出 API 覆盖范围用户请求的响应,并在 DSTC9 Track 1 基准数据集上实现了全自动和人工评估的最优性能,验证了我们的贡献的有效性。
Jun, 2021
本论文探讨了在缺少数据资源的情况下,利用预先训练好的语言模型进行对话理解中的数据增强的问题,并提出了一种利用弱监督滤波器迭代增强质量的新方法。实验结果表明,在 DailyDialog 和 Facebook 多语言任务导向对话的情感、行为和意图分类任务上使用少量数据作为辅助训练集,可以达到或超过现有的最佳性能。
Oct, 2022
提出了基于文档结构的知识识别模型,以提供对话语境下的段落编码,更好地定位与对话相关的知识。辅助损失捕捉了对话 - 文档连接的历史。在两个文档为基础的对话数据集上展示了模型的有效性,并提供了分析结果,表明其可以泛化到未见过的文档和长对话上下文。
Sep, 2021