MultiWOZ 数据集的数据流实现

Nov, 2022

MultiWOZ-DF -- A Dataflow implementation of the MultiWOZ dataset

Joram Meron, Victor Guimarães

TL;DR本文介绍了使用数据流范式来进行对话建模，采用计算图层次表示用户请求，数据和对话历史，对多轮人机对话数据集 MultiWOZ 进行了多种格式转换的实验，并给出了实验结果。

Abstract

Semantic Machines (SM) have introduced the use of the dataflow (DF) paradigm to dialogue modelling, using computational graphs to hierarchically represent user requests, data, and the dialogue history [Semantic M

dialogue modelling dataflow paradigm computational graphs multiwoz dataset experimental results

发现论文，激发创造

简化数据流对话设计

本文介绍了一种基于数据流的对话系统，并提供了一个注释数据集和程序执行引擎，旨在鼓励更多从业者探索基于数据流的对话系统的新思路和设计。

Jun, 2022

MultiWOZ -- 用于任务导向对话建模的大规模多领域人机对话数据集

本文介绍了一个基于人人写作而成的多领域伪随机项目 (MultiWOZ)，是目前已有数据集中体积最大的任务导向型对话集，其意义在于为未来研究设定了基线，并揭示了其与对话信念状态、对话行为等方面的相关性

Sep, 2018

数据流对话生成

在任务导向对话生成的数据流对话范式中，我们展示了议程驱动的多 WOZ 领域对话生成的示例，以及 SMCalFlow 领域中无议程生成对话的示例。当使用生成的对话来增强翻译训练数据集时，我们展示了用户请求到数据流表达的翻译准确性的提高。

Aug, 2023

面向任务的对话作为数据流综合

本研究提出了一种基于数据流图表示对话状态并引入元计算符以复用过去状态的方法，并针对此开发了 SMCalFlow 数据集以进行有关事件、天气、地点和人物等问题的复杂对话，实验证明基于数据流图和元计算的方法可显著提高此类自然对话的可表达性和可预测性，同时将其与现有的任务领域状态跟踪模型进行了比较。

Sep, 2020

JMultiWOZ：一个大规模的多领域任务导向对话日语数据集

为了推动日语任务导向对话系统的研究和发展，本研究构建了 JMultiWOZ，这是第一个规模较大的多领域任务导向对话数据集。通过使用 JMultiWOZ 评估英语基准数据集 MultiWOZ2.2 和最新的大型语言模型 (LLM) 方法的对话状态跟踪和响应生成能力，评估结果表明 JMultiWOZ 与 MultiWOZ2.2 具有相当的水平。此外，通过与模型和人类参与者进行交互对话的评估实验，我们发现日语中 LLMs 在任务完成能力上存在局限性。

Mar, 2024

MultiWOZ 2.1：一个包含状态纠正和状态跟踪基线的融合多域对话数据集

MultiWOZ 2.1 是一个包括多个领域的对话数据集，通过重新注释状态和话语，以及合并用户对话行为，解决了 MultiWOZ 2.0 存在的问题，并对该数据集进行了评估，展示了当前最先进的对话状态跟踪模型在该数据集上的表现。

Jul, 2019

多用户多 WOZ：多用户之间的任务导向对话

通过收集多用户多 WOZ 数据集，该研究提出了多用户背景下的查询重写任务，旨在将两个用户之间的对话重写成只包含任务相关信息、能够被对话系统直接处理的简洁任务查询，实验证明通过预测的重写方式，显著提高了对话状态跟踪的性能，并且可以适用于未知领域。

Oct, 2023

Multi3WOZ：用于培训和评估文化适应任务导向对话系统的多语言、多领域、多并行数据集

创造高质量的任务导向对话（ToD）的注释数据是困难的，特别是在为多种语言创造公平、文化适应性强、大规模的 ToD 数据集时面临诸多挑战。因此，现有的数据集仍然非常有限，并且存在诸多限制，如基于翻译的非母语对话、小规模或缺乏文化适应性等。在这项工作中，我们首先对多语言 ToD 数据集的现状进行了全面的梳理，提供了它们的特点和限制的系统概述。为了减少所有检测到的限制，我们推出了 Multi3WOZ，这是一个创新的多语言、多领域、多平行 ToD 数据集。它是大规模的，并且提供了四种语言的文化适应对话，以便训练和评估多语言和跨语言的 ToD 系统。我们描述了一个复杂的自下而上的数据收集过程，得到了最终的数据集，并提供了将来参考的不同 ToD 相关任务的基准分数，并突出了它具有挑战性的特点。

Jul, 2023

MultiWOZ 2.3：一个增强的多领域任务导向对话数据集，带有注释更正和同指标注

本文介绍了 MultiWOZ 2.3 数据集，通过协同指称功能和一致化注释实现了对话行为和对话状态的一致性，提高了自然语言理解和对话状态跟踪的性能表现。

Oct, 2020

DFEE: 交互式数据流执行和评估工具包

DFEE 是一个交互式数据流执行和评估工具包，支持语义解析器的执行、可视化和基准测试，提供友好的接口来诊断解析结果，还提出了一个更复杂的基准测试用例和任务成功评估指标来演示如何进行基准测试。

Dec, 2022