多目标跨语言摘要：一种新任务及语言中立的方法

Oct, 2024

多目标跨语言摘要：一种新任务及语言中立的方法

Multi-Target Cross-Lingual Summarization: a novel task and a language-neutral approach

Diogo Pernes, Gonçalo M. Correia, Afonso Mendes

TL;DR本研究解决了跨语言摘要中的语义一致性问题，即在不同语言间进行语义相似的多目标摘要。提出了一种基于重新排序的原则性方法及多标准评估协议，为今后进一步研究铺平了道路。

Abstract

Cross-lingual summarization aims to bridge language barriers by summarizing documents in different languages. However, ensuring Semantic coherence across languages is an overlooked challenge and can be critical i

发现论文，激发创造

NCLS: 神经跨语言摘要

通过多任务学习、循环翻译等方法，构建神经网络模型用于实现跨语言文本摘要，实验结果证明该模型较传统模型有显著提升。

Aug, 2019

WikiLingua：一种用于跨语言主旨提取的新基准数据集

该研究介绍了 WikiLingua 项目，这是一个用于跨语言抽象摘要系统评估的大型多语种数据集。该数据集从 WikiHow 中提取出18种语言的文章和摘要对。研究者们使用图像对齐的方法为不同语言版本的文章与摘要建立起对应关系，并提出了一个使用合成数据和神经机器翻译的预训练方法进行直接跨语言摘要的方法，取得了显著的性能提升。

Oct, 2020

有限平行资源下的跨语言抽象摘要

使用一种多任务框架和共享解码器的方法，跨语言摘要的跨语言资源匮乏问题得以解决，此方法名为MCLAS。通过MCLAS，实验表明其可以在有限的跨语言资源下，显著优于三种基准模型。

May, 2021

CrossSum: 跨越1500多种语言对的英语中心的跨语言生成性文本摘要

通过跨语言检索，提出跨语言摘要数据集CrossSum及其训练模型，表现出优异的ROUGE和LaSE性能，成为目前最大的跨语言摘要数据集

Dec, 2021

跨语言摘要模型与数据集

本文介绍了使用跨语言文献和维基百科创建的跨语言摘要语料库，在多种语言和方向上建立了多句子摘要数据。作者使用自动指标并进行人类研究，验证了所提出的跨语言摘要任务。最后，作者还用该数据集和多语言预训练模型进行了大量的实验证明其实用性。

Feb, 2022

跨语言摘要调查

本研究针对跨语言摘要生成任务进行了全面的系统综述，涵盖数据集、方法和挑战等方面，以便为研究人员提供起点和新想法。

Mar, 2022

WikiMulti: 用于跨语言摘要的语料库

介绍了基于维基百科15种语言文章的新日数据集 - WikiMulti，用于跨语言摘要生成 (CLS) 任务，并在该数据集上评价了现有的跨语言抽象性摘要方法的性能。

Apr, 2022

实现多语言和跨语言摘要统一化

本文提出了一种多对多摘要（M2MS）的通用框架，可以通过预培训的 Pisces 模型实现任何语言的文档摘要生成，特别在零样本学习中性能显著优于现有算法。

May, 2023

使用内容计划作为跨语言桥梁的汇总方法$μ$PLAN

本文介绍一种名为μPLAN的跨语言概括方法，该方法使用中间计划步骤作为跨语言桥梁，通过多语言知识库对计划进行对齐来生成摘要。在针对XWikis数据集的评估中，该规划方法通过ROUGE和忠实度比分方面取得了最先进的性能，并且比非规划基线提高了零-shot转移到新的跨语言语言配对的能力。

May, 2023

SumTra: 跨语言少样本摘要的可微分管道

跨语言概括是生成与输入文档不同语言（例如从英语到西班牙语）的摘要，使目标语言的使用者能够获得其内容的简洁概述。本文提出重新审视了概括和翻译流程，其中概括和翻译任务按顺序执行，并通过利用许多可用的公共资源进行单语概括和翻译，从而获得了非常有竞争力的零样本性能。此外，所提出的流程是完全可微分的端到端，可以利用少样本微调（如有）的优势。实验证明，所提出的方法在两个当代、广泛采用的跨语言概括数据集（CrossSum和WikiLingua）上表现出了显著的零样本性能，并且与等效的多语言语言模型基准相比，在只有10%的微调样本下在许多语言上取得了优于基准的性能。

Mar, 2024