通过跨语言检索,提出跨语言摘要数据集 CrossSum 及其训练模型,表现出优异的 ROUGE 和 LaSE 性能,成为目前最大的跨语言摘要数据集
Dec, 2021
使用一种多任务框架和共享解码器的方法,跨语言摘要的跨语言资源匮乏问题得以解决,此方法名为 MCLAS。通过 MCLAS,实验表明其可以在有限的跨语言资源下,显著优于三种基准模型。
May, 2021
本文介绍了使用跨语言文献和维基百科创建的跨语言摘要语料库,在多种语言和方向上建立了多句子摘要数据。作者使用自动指标并进行人类研究,验证了所提出的跨语言摘要任务。最后,作者还用该数据集和多语言预训练模型进行了大量的实验证明其实用性。
Feb, 2022
本研究填补了前人研究的空白,提出了一个多语种的学术领域摘要数据集,基于此我们能够训练和评估处理英语论文并生成德语、意大利语、汉语和日语摘要的模型,同时分析了在零样本和少样本情况下训练的性能。
May, 2022
使用混合语言预训练的交叉语言文摘模型,在没有任务特定组件的情况下利用单语数据提高语言建模的效果,实现了高效的跨语言文摘。在 Neural Cross-Lingual Summarization 数据集中,我们的模型在英汉和汉英模式下相比现有技术,分别实现了 2.82 和 1.15 ROUGE-1 分数的提升。
Oct, 2020
本文介绍了一种使用深度强化学习实现的跨语言文本摘要模型,引入了先前单语言文摘的预训练技术,并得出使用双语语义相似性作为奖励来生成摘要的强化学习模型比强基线效果更好的结论。
Jun, 2020
英语到印地语的跨语种摘要涉及文本摘要转换为另一种语言。本研究的目标是通过匹配文字和视频格式中有新闻价值的事件的报道来进行英语到印地语的跨语种摘要,以帮助数据获取。我们通过分析数据并提出方法,将文章与视频描述匹配为文档和摘要对,并提出了过滤方法以确保摘要的正确性。此外,我们提供了 28583 个单语和跨语种的文章 - 摘要对,并在收集的数据上建立和分析了多个基准,并报告了错误分析。
Dec, 2023
本研究针对跨语言摘要生成任务进行了全面的系统综述,涵盖数据集、方法和挑战等方面,以便为研究人员提供起点和新想法。
Mar, 2022
本文提出两个方法以弥补 Transformer-based summarization 模型在内容选择方面表现不佳和训练策略效率不高的缺陷,使得模型可以更好的理解要点,同时引入课程学习的方法提高了训练速度和质量,并用 Reddit TIFU 数据集和其他三个跨领域总结测量我们的模型的有效性,同时进行了人类评估表明所提出的方法在流畅性、信息量和整体质量等质量标准上具有良好的效果。
Feb, 2023
该研究介绍了 WikiLingua 项目,这是一个用于跨语言抽象摘要系统评估的大型多语种数据集。该数据集从 WikiHow 中提取出 18 种语言的文章和摘要对。研究者们使用图像对齐的方法为不同语言版本的文章与摘要建立起对应关系,并提出了一个使用合成数据和神经机器翻译的预训练方法进行直接跨语言摘要的方法,取得了显著的性能提升。