BiToD: 用于任务导向对话模型的双语多领域数据集

Jun, 2021

BiToD: 用于任务导向对话模型的双语多领域数据集

BiToD: A Bilingual Multi-Domain Dataset For Task-Oriented Dialogue Modeling

Zhaojiang Lin, Andrea Madotto, Genta Indra Winata, Peng Xu, Feijun Jiang...

TL;DRBiToD 是第一个用于多语言任务导向对话建模的双语多域数据集，并为评估双语 ToD 系统和跨语言转移学习方法提供了有效的基准。

Abstract

task-oriented dialogue (ToD) benchmarks provide an important avenue to measure progress and develop better conversational agents. However, existing datasets for end-to-end ToD modeling are limited to a single language, hindering the development of robust end-to-end ToD systems for mult

task-oriented dialogue multi-lingual end-to-end modeling bilingual dataset cross-lingual transfer learning

发现论文，激发创造

IndoToD: 一个用于端到端任务导向对话系统的多领域印尼语基准数据集

这篇论文介绍了一个名为 IndoToD 的端到端多领域任务导向对话系统基准，用于印尼语。作者通过将两个英语 ToD 数据集转换为印尼语，并通过去成分化来减小注解的规模，提供了一个高质量的数据集。这个基准可以用于评估印尼语和英语 ToD 系统，同时探索跨语言和双语传递学习方法的潜在益处。

Nov, 2023

基于大纲生成的跨语言对话数据集构建

本篇论文提出了一种基于大纲的多语言任务导向型对话数据集标注方法，使得多语言对话系统的数据集不再受到规模限制和翻译自然性以及文化特异性等方面的问题，设计出一组新的大规模数据集，其中的 Cross-lingual Outline-based Dialogue 数据集允许进行自然语言理解、对话状态跟踪和端到端对话建模和评估，并通过多种语言以及基于最先进技术的交叉语言对话系统对数据集进行了定量和定性分析，同时设定了参考分数以指导后续工作。

Jan, 2022

Multi3WOZ：用于培训和评估文化适应任务导向对话系统的多语言、多领域、多并行数据集

创造高质量的任务导向对话（ToD）的注释数据是困难的，特别是在为多种语言创造公平、文化适应性强、大规模的 ToD 数据集时面临诸多挑战。因此，现有的数据集仍然非常有限，并且存在诸多限制，如基于翻译的非母语对话、小规模或缺乏文化适应性等。在这项工作中，我们首先对多语言 ToD 数据集的现状进行了全面的梳理，提供了它们的特点和限制的系统概述。为了减少所有检测到的限制，我们推出了 Multi3WOZ，这是一个创新的多语言、多领域、多平行 ToD 数据集。它是大规模的，并且提供了四种语言的文化适应对话，以便训练和评估多语言和跨语言的 ToD 系统。我们描述了一个复杂的自下而上的数据收集过程，得到了最终的数据集，并提供了将来参考的不同 ToD 相关任务的基准分数，并突出了它具有挑战性的特点。

Jul, 2023

Multi2WOZ: 一个强大的多语言数据集和面向任务型对话的预训练

本文介绍了 Multi2WOZ 多语言多领域任务导向对话数据集，并提出了一种用于传输任意下游任务的多语言对话 PrLM 的新框架，证明了在多数情况下，最佳表现是将（I）针对目标语言的会话专业化与（ii）少次转移结合在一起，并且我们展示了针对目标语言的会话专业化可以实现下游任务的异常样本效率的少次转移。

May, 2022

TOD-BERT: 面向任务导向对话的预训练自然语言理解

本文通过整合多个人机对话数据集，结合用户和系统记号改良预训练模型，提出了对话任务 BERT（TOD-BERT）模型，并通过四个对话应用领域的实验验证，表明 TOD-BERT 在意图识别、对话状态跟踪、对话行为预测、响应选择等方面超过了强对话模型 BERT，并且具有更强的少量数据学习能力。

Apr, 2020

GlobalWoZ：将 MultiWoZ 全球化以开发多语言任务导向的对话系统

该论文介绍了一种通过翻译并修改本地实体的对话模板来生成 GlobalWoZ 数据集的方法，以增加多种语言的任务导向对话系统的数据覆盖范围，并提供了一组坚实的基准数据集以进行学习和评估。

Oct, 2021

使用蒸馏表示进行零和少量训练的任务导向对话代理定位

本文提出了一种利用源语言 ToD 训练数据构建另一种目标语言下的高质量对话代理的方法，从而实现零样本和小样本学习，它通过提高对话数据表示的质量、改进基于实体的机器翻译和自动过滤干扰性翻译来实现这一目标，通过在中英对话数据集 BiToD 上的实验证明了该方法的高效性。

Feb, 2023

ViWOZ: 低资源语言的多域任务导向对话系统数据集

本研究提出了 ViWOZ 数据集，其中包含 5000 个多轮次，多领域的任务对话，并提供基于模块和端到端模型的综合基准。这是第一个越南语的多轮次、多领域任务对话数据集，将为未来的多语言任务型对话系统研究提供数据基础。

Mar, 2022

多语言任务导向对话系统中性能差异的系统研究

多语言自然语言处理中任务导向对话系统性能差异的经验分析和洞察，以及新语言中 ToD 数据收集和系统开发的实用建议。

Oct, 2023

BootTOD: 通过对齐多样回应优化任务导向对话表征

本文介绍了一种名为 BootTOD 的新型对话预训练模型，通过自我引导框架学习面向任务的对话表示。与对比方法不同，BootTOD 可以对齐上下文和上下文 + 回复表示，并摒弃了对比对的要求。BootTOD 还使用多个合适的回复目标来模拟人类对话的内在多对多的多样性。实验证明，BootTOD 在不同的下游对话任务上优于强大的 TOD 基线模型。

Mar, 2024