介绍威尔士文本摘要数据集和基线系统
该研究介绍了 WikiLingua 项目,这是一个用于跨语言抽象摘要系统评估的大型多语种数据集。该数据集从 WikiHow 中提取出 18 种语言的文章和摘要对。研究者们使用图像对齐的方法为不同语言版本的文章与摘要建立起对应关系,并提出了一个使用合成数据和神经机器翻译的预训练方法进行直接跨语言摘要的方法,取得了显著的性能提升。
Oct, 2020
本文介绍了使用跨语言文献和维基百科创建的跨语言摘要语料库,在多种语言和方向上建立了多句子摘要数据。作者使用自动指标并进行人类研究,验证了所提出的跨语言摘要任务。最后,作者还用该数据集和多语言预训练模型进行了大量的实验证明其实用性。
Feb, 2022
维基媒体数据集是一个公开可用的音频和转录汇编,包含来自维基共享资源的 1780 小时(195GB)CC-BY-SA 许可的转录语音,在 77 种不同语言中包含了多种场景和讲话者。每个音频文件都有一个或多个不同语言的转录,使得此数据集适用于训练语音识别、语音翻译和机器翻译模型。
Aug, 2023
我们提出了 MLSUM,这是第一个大规模的多语言摘要数据集,包括五种不同语言的 150 万篇文章 / 摘要对,与来自 CNN / Daily mail 数据集的英文报纸一起,构成一个大规模的多语言数据集,可以为文本摘要社区提供新的研究方向。我们基于最先进的系统进行交叉语言比较分析,发现了现有偏见,这促使我们使用多语言数据集。
Apr, 2020
我们引入历史文本摘要的任务,其中历史形式的语言文档被概括为相应的现代语言。基于跨语言迁移学习技术,我们提出了一个摘要模型,可以即使没有跨语言(历史到现代)平行数据,也可以进行训练,并对最先进的算法进行基准测试。我们报告了自动和人工评估,突出了我们数据集的独特性和价值,并证明了我们的迁移学习方法在这项任务上优于标准的跨语言基准。
Jan, 2021
本篇论文介绍了 WiLI-2018 基准数据集,它是一个用于单语文本识别的公开免费数据集,包含来自维基百科的 1000 个段落,涵盖了 235 种语言,为分类数据集,用于确定未知主导语言的段落所属的语言。
Jan, 2018
本文介绍了 PMIndiaSum,一个针对印度语言的多语言和大规模并行的标题摘要语料库,并为单语、跨语言和多语言摘要提供了基准和数据测试。
May, 2023
英语到印地语的跨语种摘要涉及文本摘要转换为另一种语言。本研究的目标是通过匹配文字和视频格式中有新闻价值的事件的报道来进行英语到印地语的跨语种摘要,以帮助数据获取。我们通过分析数据并提出方法,将文章与视频描述匹配为文档和摘要对,并提出了过滤方法以确保摘要的正确性。此外,我们提供了 28583 个单语和跨语种的文章 - 摘要对,并在收集的数据上建立和分析了多个基准,并报告了错误分析。
Dec, 2023
该研究介绍了一份名为 “XL-Sum” 的全面而多样化的数据集,其中包含来自 44 种语言的 100 万篇新闻文章及其摘要,旨在支持跨语言抽象文本摘要的未来研究工作,且在许多语言上可实现尤其高的 ROUGE-2 分数。
Jun, 2021