CrossDial:一个有趣的相声对话中文数据集
本研究提出 CrossWOZ 数据集,这是中国首个大规模的跨领域 Wizard-of-Oz 任务导向数据集,包含了酒店、餐厅、景点、地铁和出租车等 5 个领域的 6k 对话会话和 102k 含有丰富对话状态和对话行为标注的发言。同时,数据集提供了用户模拟器和一些基准模型,方便研究人员在该数据集上比较和评估他们的模型。
Feb, 2020
本研究提出了一种名为交叉复制网络(CCN)的新型网络架构,可以同时探索当前对话上下文和类似对话实例的逻辑结构,证明了该算法在法庭辩论和客户服务内容生成等任务方面优于现有的最先进的内容生成模型。
Oct, 2020
本文提出了一个包含最大的2.8B参数的中文对话系统EVA,使用最大的中文对话数据集WDC-Dialogue进行预训练,实验证明EVA在人机会话的多轮交互中表现优异,超过了其他中文预训练对话模型。
Aug, 2021
本文旨在测试自然语言生成(NLG)在幽默方面的能力,我们使用各种方法进行生成,包括从头开始训练Seq2seq、微调中型PLMs和大型PLMs(有和无微调)。我们使用一些由数字化的中国相声剧本组成的新数据集对这些方法进行了基准测试,并进行了人员评估,表明大规模预训练大大提高了相声生成的质量,但我们得出结论:幽默生成目前还处于起步阶段。
Jul, 2022
本研究提出了一个名为 CDConv 的基准,用于检测中文对话中的矛盾,其中包含 12K 个多回合对话,注释了三种典型的矛盾类别,并展示了最先进的中文聊天机器人很容易被引导产生矛盾。
Oct, 2022
提出了 CGoDial 多领域目标导向对话评估新挑战性和综合性中文基准,包括三个使用不同知识来源的数据集(基于插槽的对话、基于流的对话和基于检索的对话),实验设置中考虑了训练集和测试集的不同组合,其中包括使用真实会话数据或通过众包添加口语特征来填补学术基准和口语场景之间的差距。
Nov, 2022
本文提出了使用机器学习技术构建大规模多轮对话数据集及相应框架Re$^3$Dial,可以将已有短轮对话数据转变成长轮对话数据,尤其适用于处理大规模开放域网络聊天数据,实验证明相比现有技术大幅提高了在不同预训练环境下的多轮对话建模能力。
May, 2023
本文研究了在跨语言对话生成任务中是否使用机器翻译系统能够提高中文的自然度、相关性和跨领域可传递性,研究表明直接使用英语对话语料比使用翻译版本更好。建议未来的研究应集中于利用英语数据进行跨语言转移。
May, 2023
使用预训练语言模型和高质量标注的对话数据,最近关于开放域对话评估的无参考学习测量的进展主要集中在英文对话上,对这些测量指标在其他语言上的泛化性还没有得到充分研究。因此,为了解决这个问题,我们引入了一个基于英文对话评估数据集的xDial-Eval来进行多语言对话评估基准测试,并建立了自监督和多语言基线模型。与OpenAI的ChatGPT相比,最好的基线模型在所有数据集和语言上的平均Pearson相关系数分别提升了6.5%和4.6%,同时具有更少的参数。
Oct, 2023
本研究针对第二语言对话评估中的缺口,开发了CNIMA框架,并引入一个包含10K对话的中文作为第二语言标注数据集。通过验证该框架的可转移性,发现其在不同语言间具有鲁棒性,并揭示了微观特征与宏观互动标签间的普遍及语言特定关系,同时提出了自动化评估的方法,显示出强大的性能,为第二语言评估提供了新工具。
Aug, 2024