ClidSum: 跨语言对话摘要的基准数据集

EMNLPFeb, 2022

ClidSum: 跨语言对话摘要的基准数据集

ClidSum: A Benchmark Dataset for Cross-Lingual Dialogue Summarization

Jiaan Wang, Fandong Meng, Ziyao Lu, Duo Zheng, Zhixu Li...

TL;DR介绍了一个用于在对话文档上建立跨语言摘要系统的基准数据集 ClidSum，该数据集包含来自两个子集（即 SAMSum 和 MediaSum）的 67k + 对话文档和 112k + 不同目标语言的注释摘要。并在基于 ClidSum 提出了两个监督和半监督场景的基准设置，接着构建了各种基线系统和在 ClidSum 上进行了广泛的实验来提供更深入的分析。最后提出了 mDialBART，该模型通过进一步预训练扩展了 mBART-50（一种多语言 BART），在实验结果中优于 ClidSum 上的强流水线模型，提出了这项任务当前面临的特定挑战并为未来研究提供了多个有前途的方向。

Abstract

We present clidsum, a benchmark dataset for building cross-lingual summarization systems on dialogue documents. It consists of 67k+ dialog

clidsum cross-lingual summarization systems dialogue documents benchmark dataset mdialbart

发现论文，激发创造

CrossSum: 跨越 1500 多种语言对的英语中心的跨语言生成性文本摘要

通过跨语言检索，提出跨语言摘要数据集 CrossSum 及其训练模型，表现出优异的 ROUGE 和 LaSE 性能，成为目前最大的跨语言摘要数据集

Dec, 2021

CroCoSum: 用于跨语言代码切换总结的评估数据集

本文介绍了 CroCoSum 数据集，这是一个跨语言代码交替技术新闻摘要的数据集。该数据集包含超过 24000 个英文来源文章和超过 18000 个中文新闻摘要，并展示了现有方法在该数据集上的表现，揭示了现有资源的有限普适性。

Mar, 2023

再探跨语言摘要：基于语料库的研究与改进注释的新基准

现有的跨语言摘要（CLS）工作往往通过直接翻译预注摘要来构建 CLS 语料库，可能会包含摘要和翻译过程中的错误。为了解决这个问题，我们提出了 ConvSumX，这是一个跨语言对话摘要基准，通过一个新的注释模式明确考虑源输入上下文。ConvSumX 包括两个子任务，涵盖了三个不同的语言方向。我们对 ConvSumX 和三个广泛使用的手动注释的 CLS 语料库进行了详尽的分析，实验证明 ConvSumX 更加忠实于输入文本。此外，基于相同的观点，我们提出了一个 2 步方法，该方法将对话和摘要作为输入以模拟人工注释过程。实验结果表明，2 步方法在 ConvSumX 上超过了强基线模型，并在自动和人工评估下显示出优势。分析表明，源输入文本和摘要对于建模跨语言摘要至关重要。

Jul, 2023

CL-SciSumm 2018 共享任务：结果与关键见解

CL-SciSumm Shared Task 2018 was held as part of SIGIR's Annual Conference, which focused on scientific document summarization in the computational linguistics domain, evaluated using two metrics and providing datasets for the community.

Sep, 2019

ClueGraphSum: 让关键线索指导跨语言概括式摘要

该研究提出了一种线索引导的跨语言自动摘要方法来提高自动生成摘要的质量，并针对手写数据进行了实验评估，取得了较好的结果。

Mar, 2022

WikiMulti: 用于跨语言摘要的语料库

介绍了基于维基百科 15 种语言文章的新日数据集 - WikiMulti，用于跨语言摘要生成 (CLS) 任务，并在该数据集上评价了现有的跨语言抽象性摘要方法的性能。

Apr, 2022

跨语言摘要模型与数据集

本文介绍了使用跨语言文献和维基百科创建的跨语言摘要语料库，在多种语言和方向上建立了多句子摘要数据。作者使用自动指标并进行人类研究，验证了所提出的跨语言摘要任务。最后，作者还用该数据集和多语言预训练模型进行了大量的实验证明其实用性。

Feb, 2022

CL-SciSumm 共享任务 2019 概述与结果

该论文介绍了 2019 年 CL-SciSumm 共享任务，包括三个任务：确定引用文献与被引用文献间的关系，分类表述要素和生成概括性摘要等，使用 40 个带有注释的 CL-SciSumm 2018 语料库和 1000 个来自 SciSummNet 数据集的引用和参考文献，以及使用了两种评估指标，其中 ROUGE 作为一种评估指标。

Jul, 2019

MediaSum：面向对话摘要的大规模媒体采访数据集

介绍了一个名叫 MediaSum 的大规模媒体采访数据集，包含 463.6K 份采访文本和摘要，被用于探究电视和广播采访文本的独特位置偏差以及转移学习在改进对话摘要模型上的应用。

Mar, 2021

SAMSum Corpus: 一个人工标注的对话文本数据集用于提取式摘要

本研究介绍了 SAMSum 语料库，这是一个新的抽象对话摘要数据集，研究人员使用多个模型进行测试，并将其结果与新闻文章语料库的结果进行比较，结果显示与人类评估者的判断相反，模型生成的对话摘要具有更高的 ROUGE 分数，这表明需要使用专用模型和非标准质量度量的抽象对话摘要这一具有挑战性的任务，据我们所知，这是引入高质量聊天对话语料库的第一次尝试，并手动注释了抽象摘要，可供研究人员进行进一步研究。

Nov, 2019