AllWOZ：面向所有人的多语言任务导向对话系统

Dec, 2021

AllWOZ：面向所有人的多语言任务导向对话系统

AllWOZ: Towards Multilingual Task-Oriented Dialog Systems for All

Lei Zuo, Kun Qian, Bowen Yang, Zhou Yu

TL;DR这篇论文介绍了 AllWOZ，它是一个涵盖英语、汉语、韩语、越南语、印地语、法语、葡萄牙语和泰语等八种语言的多语言多领域任务导向客户服务对话数据集，并且利用元学习将 mT5 应用于这个多语言数据集的基准测试。

Abstract

A commonly observed problem of the state-of-the-art natural language technologies, such as Amazon Alexa and Apple Siri, is that their services do not extend to most developing countries' citizens due to language barriers. Such populations suffer due to the lack of available resources i

natural language technologies language barriers nlp products multilingual dataset mt5

发现论文，激发创造

GlobalWoZ：将 MultiWoZ 全球化以开发多语言任务导向的对话系统

该论文介绍了一种通过翻译并修改本地实体的对话模板来生成 GlobalWoZ 数据集的方法，以增加多种语言的任务导向对话系统的数据覆盖范围，并提供了一组坚实的基准数据集以进行学习和评估。

Oct, 2021

JMultiWOZ：一个大规模的多领域任务导向对话日语数据集

为了推动日语任务导向对话系统的研究和发展，本研究构建了 JMultiWOZ，这是第一个规模较大的多领域任务导向对话数据集。通过使用 JMultiWOZ 评估英语基准数据集 MultiWOZ2.2 和最新的大型语言模型 (LLM) 方法的对话状态跟踪和响应生成能力，评估结果表明 JMultiWOZ 与 MultiWOZ2.2 具有相当的水平。此外，通过与模型和人类参与者进行交互对话的评估实验，我们发现日语中 LLMs 在任务完成能力上存在局限性。

Mar, 2024

Multi3WOZ：用于培训和评估文化适应任务导向对话系统的多语言、多领域、多并行数据集

创造高质量的任务导向对话（ToD）的注释数据是困难的，特别是在为多种语言创造公平、文化适应性强、大规模的 ToD 数据集时面临诸多挑战。因此，现有的数据集仍然非常有限，并且存在诸多限制，如基于翻译的非母语对话、小规模或缺乏文化适应性等。在这项工作中，我们首先对多语言 ToD 数据集的现状进行了全面的梳理，提供了它们的特点和限制的系统概述。为了减少所有检测到的限制，我们推出了 Multi3WOZ，这是一个创新的多语言、多领域、多平行 ToD 数据集。它是大规模的，并且提供了四种语言的文化适应对话，以便训练和评估多语言和跨语言的 ToD 系统。我们描述了一个复杂的自下而上的数据收集过程，得到了最终的数据集，并提供了将来参考的不同 ToD 相关任务的基准分数，并突出了它具有挑战性的特点。

Jul, 2023

ViWOZ: 低资源语言的多域任务导向对话系统数据集

本研究提出了 ViWOZ 数据集，其中包含 5000 个多轮次，多领域的任务对话，并提供基于模块和端到端模型的综合基准。这是第一个越南语的多轮次、多领域任务对话数据集，将为未来的多语言任务型对话系统研究提供数据基础。

Mar, 2022

Multi2WOZ: 一个强大的多语言数据集和面向任务型对话的预训练

本文介绍了 Multi2WOZ 多语言多领域任务导向对话数据集，并提出了一种用于传输任意下游任务的多语言对话 PrLM 的新框架，证明了在多数情况下，最佳表现是将（I）针对目标语言的会话专业化与（ii）少次转移结合在一起，并且我们展示了针对目标语言的会话专业化可以实现下游任务的异常样本效率的少次转移。

May, 2022

X-RiSAWOZ：高质量端到端多语对话数据集和少样本代理

本研究的目的是降低使用新語言創建數據集的成本，並通過提出一種使用機器翻譯和後編輯方法的工具集，實現建立高質量多語言對話代理的目的。

Jun, 2023

MultiWOZ -- 用于任务导向对话建模的大规模多领域人机对话数据集

本文介绍了一个基于人人写作而成的多领域伪随机项目 (MultiWOZ)，是目前已有数据集中体积最大的任务导向型对话集，其意义在于为未来研究设定了基线，并揭示了其与对话信念状态、对话行为等方面的相关性

Sep, 2018

CrossWOZ: 一个大规模的中文跨领域任务导向对话数据集

本研究提出 CrossWOZ 数据集，这是中国首个大规模的跨领域 Wizard-of-Oz 任务导向数据集，包含了酒店、餐厅、景点、地铁和出租车等 5 个领域的 6k 对话会话和 102k 含有丰富对话状态和对话行为标注的发言。同时，数据集提供了用户模拟器和一些基准模型，方便研究人员在该数据集上比较和评估他们的模型。

Feb, 2020

HR-MultiWOZ: 面向任务的对话 (TOD) 数据集用于 HR LLM 代理

我们介绍了 HR-Multiwoz，这是一个包含 550 个涵盖 10 个 HR 领域的完全标记的对话数据集，以评估 LLM Agent。该数据集是为自然语言处理 (NLP) 研究的 HR 领域首个开源对话数据集。通过 LLMs 为基础的数据收集流程，大大减少了人员参与的工作量和成本。

Feb, 2024

多用户多 WOZ：多用户之间的任务导向对话

通过收集多用户多 WOZ 数据集，该研究提出了多用户背景下的查询重写任务，旨在将两个用户之间的对话重写成只包含任务相关信息、能够被对话系统直接处理的简洁任务查询，实验证明通过预测的重写方式，显著提高了对话状态跟踪的性能，并且可以适用于未知领域。

Oct, 2023