再探跨语言摘要：基于语料库的研究与改进注释的新基准

ACLJul, 2023

再探跨语言摘要：基于语料库的研究与改进注释的新基准

Revisiting Cross-Lingual Summarization: A Corpus-based Study and A New Benchmark with Improved Annotation

Yulong Chen, Huajian Zhang, Yijie Zhou, Xuefeng Bai, Yueguan Wang...

TL;DR现有的跨语言摘要（CLS）工作往往通过直接翻译预注摘要来构建 CLS 语料库，可能会包含摘要和翻译过程中的错误。为了解决这个问题，我们提出了 ConvSumX，这是一个跨语言对话摘要基准，通过一个新的注释模式明确考虑源输入上下文。ConvSumX 包括两个子任务，涵盖了三个不同的语言方向。我们对 ConvSumX 和三个广泛使用的手动注释的 CLS 语料库进行了详尽的分析，实验证明 ConvSumX 更加忠实于输入文本。此外，基于相同的观点，我们提出了一个 2 步方法，该方法将对话和摘要作为输入以模拟人工注释过程。实验结果表明，2 步方法在 ConvSumX 上超过了强基线模型，并在自动和人工评估下显示出优势。分析表明，源输入文本和摘要对于建模跨语言摘要至关重要。

Abstract

Most existing cross-lingual summarization (CLS) work constructs cls corpora by simply and directly translating pre-annotated summaries from one language to another, which can contain errors from both summarizatio

cross-lingual summarization convsumx annotation schema cls corpora 2-step method

发现论文，激发创造

NCLS: 神经跨语言摘要

通过多任务学习、循环翻译等方法，构建神经网络模型用于实现跨语言文本摘要，实验结果证明该模型较传统模型有显著提升。

Aug, 2019

ClueGraphSum: 让关键线索指导跨语言概括式摘要

该研究提出了一种线索引导的跨语言自动摘要方法来提高自动生成摘要的质量，并针对手写数据进行了实验评估，取得了较好的结果。

Mar, 2022

跨语言对话摘要挑战赛

本文提出 “ConvSumX Challenge”，为研究人员提供了研究整合对话摘要和机器翻译的解决方案的新途径，旨在打破非英语演讲者受益于最新对话摘要进展的壁垒。通过构建新的基准，涵盖 2 种实际情况和 3 种语言方向，包括低资源语言，以期激励研究超越英语。

May, 2022

跨语言摘要的混合语言预训练

使用混合语言预训练的交叉语言文摘模型，在没有任务特定组件的情况下利用单语数据提高语言建模的效果，实现了高效的跨语言文摘。在 Neural Cross-Lingual Summarization 数据集中，我们的模型在英汉和汉英模式下相比现有技术，分别实现了 2.82 和 1.15 ROUGE-1 分数的提升。

Oct, 2020

使用压缩率统一跨语言摘要和机器翻译

通过提出 Cross-lingual Summarization with Compression rate (CSC) 的创新任务，并通过有效的数据增强方法来产生不同压缩率的文档摘要对，从而提高 Cross-Lingual Summarization 的性能。

Oct, 2021

长文档跨语言摘要

本文介绍了长文档跨语言摘要的研究现状，并构建了 Perseus 数据集，评估了不同的从结构和端到端方案，结果表明端到端方案卓越地胜过利用复杂机器翻译系统配备的管道模型。

Dec, 2022

跨语言跨时间摘要：数据集、模型、评估

本文探讨如何应用跨语言和跨时期的文字连线技术在信息总结中的应用，并通过构建数据集、建模和评估得出结论：通过中间任务微调的端到端模型的总结质量一般；ChatGPT（无需微调）的总结质量良好，并与人类评分中相关；在对抗攻击的情况下，ChatGPT 在省略和实体替换方面的表现更好。

Jun, 2023

CrossSum: 跨越 1500 多种语言对的英语中心的跨语言生成性文本摘要

通过跨语言检索，提出跨语言摘要数据集 CrossSum 及其训练模型，表现出优异的 ROUGE 和 LaSE 性能，成为目前最大的跨语言摘要数据集

Dec, 2021

CroCoSum: 用于跨语言代码切换总结的评估数据集

本文介绍了 CroCoSum 数据集，这是一个跨语言代码交替技术新闻摘要的数据集。该数据集包含超过 24000 个英文来源文章和超过 18000 个中文新闻摘要，并展示了现有方法在该数据集上的表现，揭示了现有资源的有限普适性。

Mar, 2023

跨语言摘要模型与数据集

本文介绍了使用跨语言文献和维基百科创建的跨语言摘要语料库，在多种语言和方向上建立了多句子摘要数据。作者使用自动指标并进行人类研究，验证了所提出的跨语言摘要任务。最后，作者还用该数据集和多语言预训练模型进行了大量的实验证明其实用性。

Feb, 2022