X-RiSAWOZ：高质量端到端多语对话数据集和少样本代理

ACLJun, 2023

X-RiSAWOZ：高质量端到端多语对话数据集和少样本代理

X-RiSAWOZ: High-Quality End-to-End Multilingual Dialogue Datasets and Few-shot Agents

Mehrad Moradshahi, Tianhao Shen, Kalika Bali, Monojit Choudhury, Gaël de Chalendar...

TL;DR本研究的目的是降低使用新語言創建數據集的成本，並通過提出一種使用機器翻譯和後編輯方法的工具集，實現建立高質量多語言對話代理的目的。

Abstract

task-oriented dialogue research has mainly focused on a few popular languages like English and Chinese, due to the high dataset creation cost for a new language. To reduce the cost, we apply manual editing to automatically translated data. We create a new →

task-oriented dialogue multilingual benchmark machine translation dialogue agents cost-effective

发现论文，激发创造

RiSAWOZ: 大规模多领域 Wizard-of-Oz 数据集，具有丰富的语义注释，用于面向任务的对话建模

本研究提出了 RiSAWOZ，这是一个大规模的、多领域的中文人机对话数据集，并提供了丰富的语义注释和对话自然语言描述，可用于对话系统的基准比较和未来研究的任务导向对话建模。

Oct, 2020

多语言任务导向对话的情境语义解析

通过机器翻译自动翻译对话数据集并使用新的上下文语义解析模型，该方法在多个数据集上提高了准确性并创建了高准确度的多语言对话数据集。

Nov, 2021

Multi2WOZ: 一个强大的多语言数据集和面向任务型对话的预训练

本文介绍了 Multi2WOZ 多语言多领域任务导向对话数据集，并提出了一种用于传输任意下游任务的多语言对话 PrLM 的新框架，证明了在多数情况下，最佳表现是将（I）针对目标语言的会话专业化与（ii）少次转移结合在一起，并且我们展示了针对目标语言的会话专业化可以实现下游任务的异常样本效率的少次转移。

May, 2022

AllWOZ：面向所有人的多语言任务导向对话系统

这篇论文介绍了 AllWOZ，它是一个涵盖英语、汉语、韩语、越南语、印地语、法语、葡萄牙语和泰语等八种语言的多语言多领域任务导向客户服务对话数据集，并且利用元学习将 mT5 应用于这个多语言数据集的基准测试。

Dec, 2021

ViWOZ: 低资源语言的多域任务导向对话系统数据集

本研究提出了 ViWOZ 数据集，其中包含 5000 个多轮次，多领域的任务对话，并提供基于模块和端到端模型的综合基准。这是第一个越南语的多轮次、多领域任务对话数据集，将为未来的多语言任务型对话系统研究提供数据基础。

Mar, 2022

JMultiWOZ：一个大规模的多领域任务导向对话日语数据集

为了推动日语任务导向对话系统的研究和发展，本研究构建了 JMultiWOZ，这是第一个规模较大的多领域任务导向对话数据集。通过使用 JMultiWOZ 评估英语基准数据集 MultiWOZ2.2 和最新的大型语言模型 (LLM) 方法的对话状态跟踪和响应生成能力，评估结果表明 JMultiWOZ 与 MultiWOZ2.2 具有相当的水平。此外，通过与模型和人类参与者进行交互对话的评估实验，我们发现日语中 LLMs 在任务完成能力上存在局限性。

Mar, 2024

AfriWOZ: 利用跨语言可传递性生成低资源非洲语言对话的语料库

本文介绍了针对非洲语言首次提供的高质量对话数据集，并通过深度单语模型 DialoGPT 和 BlenderBot 以及基准模型 seq2seq 对其进行建模，利用重叠度进行效果分析，同时通过人类评估方法验证其有效性，发现深度单语模型可以学习一些泛化跨语言的抽象，人类得分最高的是奈及利亚皮钦英语。

Apr, 2022

GlobalWoZ：将 MultiWoZ 全球化以开发多语言任务导向的对话系统

该论文介绍了一种通过翻译并修改本地实体的对话模板来生成 GlobalWoZ 数据集的方法，以增加多种语言的任务导向对话系统的数据覆盖范围，并提供了一组坚实的基准数据集以进行学习和评估。

Oct, 2021

Multi3WOZ：用于培训和评估文化适应任务导向对话系统的多语言、多领域、多并行数据集

创造高质量的任务导向对话（ToD）的注释数据是困难的，特别是在为多种语言创造公平、文化适应性强、大规模的 ToD 数据集时面临诸多挑战。因此，现有的数据集仍然非常有限，并且存在诸多限制，如基于翻译的非母语对话、小规模或缺乏文化适应性等。在这项工作中，我们首先对多语言 ToD 数据集的现状进行了全面的梳理，提供了它们的特点和限制的系统概述。为了减少所有检测到的限制，我们推出了 Multi3WOZ，这是一个创新的多语言、多领域、多平行 ToD 数据集。它是大规模的，并且提供了四种语言的文化适应对话，以便训练和评估多语言和跨语言的 ToD 系统。我们描述了一个复杂的自下而上的数据收集过程，得到了最终的数据集，并提供了将来参考的不同 ToD 相关任务的基准分数，并突出了它具有挑战性的特点。

Jul, 2023

CrossWOZ: 一个大规模的中文跨领域任务导向对话数据集

本研究提出 CrossWOZ 数据集，这是中国首个大规模的跨领域 Wizard-of-Oz 任务导向数据集，包含了酒店、餐厅、景点、地铁和出租车等 5 个领域的 6k 对话会话和 102k 含有丰富对话状态和对话行为标注的发言。同时，数据集提供了用户模拟器和一些基准模型，方便研究人员在该数据集上比较和评估他们的模型。

Feb, 2020