WikiMulti: 用于跨语言摘要的语料库

Apr, 2022

WikiMulti: 用于跨语言摘要的语料库

WikiMulti: a Corpus for Cross-Lingual Summarization

Pavel Tikhonov, Valentin Malykh

TL;DR介绍了基于维基百科15种语言文章的新日数据集 - WikiMulti，用于跨语言摘要生成 (CLS) 任务，并在该数据集上评价了现有的跨语言抽象性摘要方法的性能。

Abstract

cross-lingual summarization (CLS) is the task to produce a summary in one particular language for a source document in a different language. We introduce WikiMulti - a new dataset for cross-lingual summarization

发现论文，激发创造

WikiLingua：一种用于跨语言主旨提取的新基准数据集

该研究介绍了 WikiLingua 项目，这是一个用于跨语言抽象摘要系统评估的大型多语种数据集。该数据集从 WikiHow 中提取出18种语言的文章和摘要对。研究者们使用图像对齐的方法为不同语言版本的文章与摘要建立起对应关系，并提出了一个使用合成数据和神经机器翻译的预训练方法进行直接跨语言摘要的方法，取得了显著的性能提升。

Oct, 2020

有限平行资源下的跨语言抽象摘要

使用一种多任务框架和共享解码器的方法，跨语言摘要的跨语言资源匮乏问题得以解决，此方法名为MCLAS。通过MCLAS，实验表明其可以在有限的跨语言资源下，显著优于三种基准模型。

May, 2021

CrossSum: 跨越1500多种语言对的英语中心的跨语言生成性文本摘要

通过跨语言检索，提出跨语言摘要数据集CrossSum及其训练模型，表现出优异的ROUGE和LaSE性能，成为目前最大的跨语言摘要数据集

Dec, 2021

跨语言摘要模型与数据集

本文介绍了使用跨语言文献和维基百科创建的跨语言摘要语料库，在多种语言和方向上建立了多句子摘要数据。作者使用自动指标并进行人类研究，验证了所提出的跨语言摘要任务。最后，作者还用该数据集和多语言预训练模型进行了大量的实验证明其实用性。

Feb, 2022

ClueGraphSum: 让关键线索指导跨语言概括式摘要

该研究提出了一种线索引导的跨语言自动摘要方法来提高自动生成摘要的质量，并针对手写数据进行了实验评估，取得了较好的结果。

Mar, 2022

跨语言摘要调查

本研究针对跨语言摘要生成任务进行了全面的系统综述，涵盖数据集、方法和挑战等方面，以便为研究人员提供起点和新想法。

Mar, 2022

长文档跨语言摘要

本文介绍了长文档跨语言摘要的研究现状，并构建了 Perseus 数据集，评估了不同的从结构和端到端方案，结果表明端到端方案卓越地胜过利用复杂机器翻译系统配备的管道模型。

Dec, 2022

跨语言摘要中的翻译特征理解

本文研究了跨语言文本摘要中的翻译现象并探究了其对模型性能和评估的影响，提出了建立适合低资源语言的CLS系统的方法，并提供了数据集和模型发展的建议。

Dec, 2022

跨语言跨时间摘要：数据集、模型、评估

本文探讨如何应用跨语言和跨时期的文字连线技术在信息总结中的应用，并通过构建数据集、建模和评估得出结论：通过中间任务微调的端到端模型的总结质量一般；ChatGPT（无需微调）的总结质量良好，并与人类评分中相关；在对抗攻击的情况下，ChatGPT 在省略和实体替换方面的表现更好。

Jun, 2023

再探跨语言摘要：基于语料库的研究与改进注释的新基准

现有的跨语言摘要（CLS）工作往往通过直接翻译预注摘要来构建CLS语料库，可能会包含摘要和翻译过程中的错误。为了解决这个问题，我们提出了ConvSumX，这是一个跨语言对话摘要基准，通过一个新的注释模式明确考虑源输入上下文。ConvSumX包括两个子任务，涵盖了三个不同的语言方向。我们对ConvSumX和三个广泛使用的手动注释的CLS语料库进行了详尽的分析，实验证明ConvSumX更加忠实于输入文本。此外，基于相同的观点，我们提出了一个2步方法，该方法将对话和摘要作为输入以模拟人工注释过程。实验结果表明，2步方法在ConvSumX上超过了强基线模型，并在自动和人工评估下显示出优势。分析表明，源输入文本和摘要对于建模跨语言摘要至关重要。

Jul, 2023