CrossDial：一个有趣的相声对话中文数据集

Sep, 2022

CrossDial：一个有趣的相声对话中文数据集

CrossDial: An Entertaining Dialogue Dataset of Chinese Crosstalk

Baizhou Huang, Shikang Du, Xiaojun Wan

TL;DR本研究介绍了CrossDial，它是来自Web的包含大多数经典中国相声的首个开源数据集。同时，我们定义了两个新任务，提供了两个基准，并调查了当前对话生成模型在相声生成领域中的能力。实验结果和案例研究表明，相声生成对于直接方法是有挑战性的，同时也是未来工作的有趣研究方向。

Abstract

crosstalk is a traditional chinese theatrical performance art. It is commonly performed by two performers in the form of a dialogue. With the typical features of dialogues, crosstalks are also designed to be hila

发现论文，激发创造

CrossWOZ: 一个大规模的中文跨领域任务导向对话数据集

本研究提出 CrossWOZ 数据集，这是中国首个大规模的跨领域 Wizard-of-Oz 任务导向数据集，包含了酒店、餐厅、景点、地铁和出租车等 5 个领域的 6k 对话会话和 102k 含有丰富对话状态和对话行为标注的发言。同时，数据集提供了用户模拟器和一些基准模型，方便研究人员在该数据集上比较和评估他们的模型。

Feb, 2020

交叉拷贝网络用于对话生成

本研究提出了一种名为交叉复制网络(CCN)的新型网络架构，可以同时探索当前对话上下文和类似对话实例的逻辑结构，证明了该算法在法庭辩论和客户服务内容生成等任务方面优于现有的最先进的内容生成模型。

Oct, 2020

EVA：一个基于大规模生成预训练的开放域中文对话系统

本文提出了一个包含最大的2.8B参数的中文对话系统EVA，使用最大的中文对话数据集WDC-Dialogue进行预训练，实验证明EVA在人机会话的多轮交互中表现优异，超过了其他中文预训练对话模型。

Aug, 2021

语言模型能否制造乐趣？以中国相声为例的案例研究

本文旨在测试自然语言生成（NLG）在幽默方面的能力，我们使用各种方法进行生成，包括从头开始训练Seq2seq、微调中型PLMs和大型PLMs（有和无微调）。我们使用一些由数字化的中国相声剧本组成的新数据集对这些方法进行了基准测试，并进行了人员评估，表明大规模预训练大大提高了相声生成的质量，但我们得出结论：幽默生成目前还处于起步阶段。

Jul, 2022

CDConv：中文对话矛盾检测基准

本研究提出了一个名为 CDConv 的基准，用于检测中文对话中的矛盾，其中包含 12K 个多回合对话，注释了三种典型的矛盾类别，并展示了最先进的中文聊天机器人很容易被引导产生矛盾。

Oct, 2022

CGoDial：中文目标导向对话评估的大规模基准

提出了 CGoDial 多领域目标导向对话评估新挑战性和综合性中文基准，包括三个使用不同知识来源的数据集（基于插槽的对话、基于流的对话和基于检索的对话），实验设置中考虑了训练集和测试集的不同组合，其中包括使用真实会话数据或通过众包添加口语特征来填补学术基准和口语场景之间的差距。

Nov, 2022

Re$^3$Dial：用于长轮次开放域对话预训练的检索、重组和缩放对话语料库

本文提出了使用机器学习技术构建大规模多轮对话数据集及相应框架Re$^3$Dial，可以将已有短轮对话数据转变成长轮对话数据，尤其适用于处理大规模开放域网络聊天数据，实验证明相比现有技术大幅提高了在不同预训练环境下的多轮对话建模能力。

May, 2023

翻译是否有帮助？低资源对话生成中跨语言转移的实证分析

本文研究了在跨语言对话生成任务中是否使用机器翻译系统能够提高中文的自然度、相关性和跨领域可传递性，研究表明直接使用英语对话语料比使用翻译版本更好。建议未来的研究应集中于利用英语数据进行跨语言转移。

May, 2023

xDial-Eval: 多语言开放领域对话评估基准

使用预训练语言模型和高质量标注的对话数据，最近关于开放域对话评估的无参考学习测量的进展主要集中在英文对话上，对这些测量指标在其他语言上的泛化性还没有得到充分研究。因此，为了解决这个问题，我们引入了一个基于英文对话评估数据集的xDial-Eval来进行多语言对话评估基准测试，并建立了自监督和多语言基线模型。与OpenAI的ChatGPT相比，最好的基线模型在所有数据集和语言上的平均Pearson相关系数分别提升了6.5%和4.6%，同时具有更少的参数。

Oct, 2023

CNIMA：一种通用的评估框架和自动化方法，用于评估第二语言对话

本研究针对第二语言对话评估中的缺口，开发了CNIMA框架，并引入一个包含10K对话的中文作为第二语言标注数据集。通过验证该框架的可转移性，发现其在不同语言间具有鲁棒性，并揭示了微观特征与宏观互动标签间的普遍及语言特定关系，同时提出了自动化评估的方法，显示出强大的性能，为第二语言评估提供了新工具。

Aug, 2024