使用蒸馏表示进行零和少量训练的任务导向对话代理定位
多语种任务对话代理人的创建在训练数据获取成本高的情况下具有挑战性,通过改进训练数据效率的研究趋势,我们首次展示了上下文学习在解决多语种任务对话代理人中的有效性。通过将具有挑战性的对话状态跟踪 (DST) 子任务分解为更简单、更适合上下文学习的步骤,我们在多语种任务对话数据集 X-RiSAWOZ 上测试了我们的方法,并在 6 种语言上获得了以每轮对话的 DST 准确性为 55.6% 至 80.3% 的结果,看似比微调模型的 SOTA 结果(60.7% 至 82.8% 的准确性)要差;我们在响应生成 (RG) 子任务上的 BLEU 分数也明显低于 SOTA 的结果。然而,在手动评估验证集后,我们发现通过纠正金标签错误和改进数据集注释模式,我们的启示式 GPT-4 在 DST 方面可以达到 89.6% 至 96.8% 的准确性,并且在不同语言上的响应生成中超过 99% 的正确率。这使我们得出的结论是,当前的自动度量指标严重低估了上下文学习的有效性。
May, 2024
本论文提出了 TransferQA,一个可转移的生成式问答模型,它通过文本到文本转换框架无缝地结合了抽取式问答和多选式问答,有效地处理了零 - shot DST 任务中的分类和非分类插槽,并介绍了两种构建无法回答的问题的有效方法,即负面问题抽样和上下文截断。经过实验证明,在 MultiWoz 上,我们的方法显著改善了现有的零 - shot 和少 - shot 结果,与 Schema-Guided Dialogue 数据集上的全面训练基线相比,我们的方法在未知领域中表现出更好的泛化能力。
Sep, 2021
该研究介绍了一种基于 GPT-2 模型的零 - shot 通用端到端任务导向对话系统,该系统利用域模式允许对未见过的域进行健壮的泛化,并利用对话历史的有效摘要,实现一般任务完成技能的学习。经过了大量的实验评估 SGD 和 SGD-X 数据集,跨越多达 20 个独特的领域,ZS-ToD 在关键度量上优于现有技术,联合目标准确率提高了 17%,信息传递提高了 5 个单位。
Mar, 2023
利用转移学习模式,主流的跨语言任务导向对话系统通过在英语中训练一个共同的意图识别和槽填充模型,然后将其无缝应用于其他语言。然而,现有研究往往忽视了向资源较少的方言进行转移的问题。本文针对这一问题,基于之前对英语的研究,我们构建了并手动评估了将德语句子转换为口语形式的扰动规则,并将其用于合成四个任务导向对话数据集的测试集。利用这些新数据集,我们在六种不同的 transformer 上进行了实验评估,结果表明,当应用于口语方言时,其意图识别性能仍然保持,并且平均准确率仅下降了 6%(4.62 个百分点)。然而,槽探测方面的性能大幅下降,槽 F1 评分降低了 31%(21 个百分点)。我们的发现得到了从标准美国英语向合成的城市非裔美国俚语英语的转移实验的进一步支持。
Feb, 2024
本文针对零资源的多语言任务导向对话系统进行零样本自适应的提出,使用极少量的平行语词来优化对齐的跨语言词级表示,并采用潜变量模型处理不同语言间类似句子的变化,实验表明,我们的模型在零样本情况下对自然语言理解任务的适应性优于当前最先进的模型。
Nov, 2019
本研究围绕任务导向对话系统的技术展开研究,旨在发现用户请求中 API 无法涵盖的领域,提出了一种基于自适应表示学习和密度估计的新型检测器 REDE,REDE 可以应用于零样本情况,并通过更新少于 3K 个参数快速学习高性能的检测器。本研究表明了 REDE 在 DSTC9 数据集和新测试集上的竞争性表现。
Sep, 2021
本研究提出了一种名为 P-ToD 的新型框架,使用无监督学习的方法,使用零样本泛化奖励函数来实现个性化任务导向的对话系统,具有适应性强,并使用少量标记训练示例来微调模型。
Mar, 2023
研究通过自我训练的方法,利用大量未标记的对话数据进一步改进预先训练的模型,以应对高昂的对话系统不同模块的标注成本问题,并证明该方法在少量标记数据可利用时可以一致提高现有预先训练模型的性能。
Aug, 2021
本篇论文提出了一种基于大纲的多语言任务导向型对话数据集标注方法,使得多语言对话系统的数据集不再受到规模限制和翻译自然性以及文化特异性等方面的问题,设计出一组新的大规模数据集,其中的 Cross-lingual Outline-based Dialogue 数据集允许进行自然语言理解、对话状态跟踪和端到端对话建模和评估,并通过多种语言以及基于最先进技术的交叉语言对话系统对数据集进行了定量和定性分析,同时设定了参考分数以指导后续工作。
Jan, 2022
该研究提出了一种基于 Task-Optimized Adapters 和强化学习的 End-to-end TOD 系统,能够独立学习每个任务,并在 MultiWOZ 基准测试上表现出优越的性能,特别是在 2.2 数据集上的 DST 任务达到了最先进的水平。
May, 2023