WikiMulti: 用于跨语言摘要的语料库
该研究介绍了 WikiLingua 项目,这是一个用于跨语言抽象摘要系统评估的大型多语种数据集。该数据集从 WikiHow 中提取出18种语言的文章和摘要对。研究者们使用图像对齐的方法为不同语言版本的文章与摘要建立起对应关系,并提出了一个使用合成数据和神经机器翻译的预训练方法进行直接跨语言摘要的方法,取得了显著的性能提升。
Oct, 2020
使用一种多任务框架和共享解码器的方法,跨语言摘要的跨语言资源匮乏问题得以解决,此方法名为MCLAS。通过MCLAS,实验表明其可以在有限的跨语言资源下,显著优于三种基准模型。
May, 2021
通过跨语言检索,提出跨语言摘要数据集CrossSum及其训练模型,表现出优异的ROUGE和LaSE性能,成为目前最大的跨语言摘要数据集
Dec, 2021
本文介绍了使用跨语言文献和维基百科创建的跨语言摘要语料库,在多种语言和方向上建立了多句子摘要数据。作者使用自动指标并进行人类研究,验证了所提出的跨语言摘要任务。最后,作者还用该数据集和多语言预训练模型进行了大量的实验证明其实用性。
Feb, 2022
本文介绍了长文档跨语言摘要的研究现状,并构建了 Perseus 数据集,评估了不同的从结构和端到端方案,结果表明端到端方案卓越地胜过利用复杂机器翻译系统配备的管道模型。
Dec, 2022
本文探讨如何应用跨语言和跨时期的文字连线技术在信息总结中的应用,并通过构建数据集、建模和评估得出结论:通过中间任务微调的端到端模型的总结质量一般;ChatGPT(无需微调)的总结质量良好,并与人类评分中相关;在对抗攻击的情况下,ChatGPT 在省略和实体替换方面的表现更好。
Jun, 2023
现有的跨语言摘要(CLS)工作往往通过直接翻译预注摘要来构建CLS语料库,可能会包含摘要和翻译过程中的错误。为了解决这个问题,我们提出了ConvSumX,这是一个跨语言对话摘要基准,通过一个新的注释模式明确考虑源输入上下文。ConvSumX包括两个子任务,涵盖了三个不同的语言方向。我们对ConvSumX和三个广泛使用的手动注释的CLS语料库进行了详尽的分析,实验证明ConvSumX更加忠实于输入文本。此外,基于相同的观点,我们提出了一个2步方法,该方法将对话和摘要作为输入以模拟人工注释过程。实验结果表明,2步方法在ConvSumX上超过了强基线模型,并在自动和人工评估下显示出优势。分析表明,源输入文本和摘要对于建模跨语言摘要至关重要。
Jul, 2023