BiToD: 用于任务导向对话模型的双语多领域数据集
这篇论文介绍了一个名为 IndoToD 的端到端多领域任务导向对话系统基准,用于印尼语。作者通过将两个英语 ToD 数据集转换为印尼语,并通过去成分化来减小注解的规模,提供了一个高质量的数据集。这个基准可以用于评估印尼语和英语 ToD 系统,同时探索跨语言和双语传递学习方法的潜在益处。
Nov, 2023
本篇论文提出了一种基于大纲的多语言任务导向型对话数据集标注方法,使得多语言对话系统的数据集不再受到规模限制和翻译自然性以及文化特异性等方面的问题,设计出一组新的大规模数据集,其中的 Cross-lingual Outline-based Dialogue 数据集允许进行自然语言理解、对话状态跟踪和端到端对话建模和评估,并通过多种语言以及基于最先进技术的交叉语言对话系统对数据集进行了定量和定性分析,同时设定了参考分数以指导后续工作。
Jan, 2022
创造高质量的任务导向对话(ToD)的注释数据是困难的,特别是在为多种语言创造公平、文化适应性强、大规模的 ToD 数据集时面临诸多挑战。因此,现有的数据集仍然非常有限,并且存在诸多限制,如基于翻译的非母语对话、小规模或缺乏文化适应性等。在这项工作中,我们首先对多语言 ToD 数据集的现状进行了全面的梳理,提供了它们的特点和限制的系统概述。为了减少所有检测到的限制,我们推出了 Multi3WOZ,这是一个创新的多语言、多领域、多平行 ToD 数据集。它是大规模的,并且提供了四种语言的文化适应对话,以便训练和评估多语言和跨语言的 ToD 系统。我们描述了一个复杂的自下而上的数据收集过程,得到了最终的数据集,并提供了将来参考的不同 ToD 相关任务的基准分数,并突出了它具有挑战性的特点。
Jul, 2023
本文介绍了 Multi2WOZ 多语言多领域任务导向对话数据集,并提出了一种用于传输任意下游任务的多语言对话 PrLM 的新框架,证明了在多数情况下,最佳表现是将(I)针对目标语言的会话专业化与(ii)少次转移结合在一起,并且我们展示了针对目标语言的会话专业化可以实现下游任务的异常样本效率的少次转移。
May, 2022
本文通过整合多个人机对话数据集,结合用户和系统记号改良预训练模型,提出了对话任务 BERT(TOD-BERT)模型,并通过四个对话应用领域的实验验证,表明 TOD-BERT 在意图识别、对话状态跟踪、对话行为预测、响应选择等方面超过了强对话模型 BERT,并且具有更强的少量数据学习能力。
Apr, 2020
该论文介绍了一种通过翻译并修改本地实体的对话模板来生成 GlobalWoZ 数据集的方法,以增加多种语言的任务导向对话系统的数据覆盖范围,并提供了一组坚实的基准数据集以进行学习和评估。
Oct, 2021
本文提出了一种利用源语言 ToD 训练数据构建另一种目标语言下的高质量对话代理的方法,从而实现零样本和小样本学习,它通过提高对话数据表示的质量、改进基于实体的机器翻译和自动过滤干扰性翻译来实现这一目标,通过在中英对话数据集 BiToD 上的实验证明了该方法的高效性。
Feb, 2023
本研究提出了 ViWOZ 数据集,其中包含 5000 个多轮次,多领域的任务对话,并提供基于模块和端到端模型的综合基准。这是第一个越南语的多轮次、多领域任务对话数据集,将为未来的多语言任务型对话系统研究提供数据基础。
Mar, 2022
本文介绍了一种名为 BootTOD 的新型对话预训练模型,通过自我引导框架学习面向任务的对话表示。与对比方法不同,BootTOD 可以对齐上下文和上下文 + 回复表示,并摒弃了对比对的要求。BootTOD 还使用多个合适的回复目标来模拟人类对话的内在多对多的多样性。实验证明,BootTOD 在不同的下游对话任务上优于强大的 TOD 基线模型。
Mar, 2024