PMIndiaSum: 面向印度的多语和跨语言头条摘要
通过跨语言检索,提出跨语言摘要数据集 CrossSum 及其训练模型,表现出优异的 ROUGE 和 LaSE 性能,成为目前最大的跨语言摘要数据集
Dec, 2021
本文介绍了使用跨语言文献和维基百科创建的跨语言摘要语料库,在多种语言和方向上建立了多句子摘要数据。作者使用自动指标并进行人类研究,验证了所提出的跨语言摘要任务。最后,作者还用该数据集和多语言预训练模型进行了大量的实验证明其实用性。
Feb, 2022
我们提出了 MLSUM,这是第一个大规模的多语言摘要数据集,包括五种不同语言的 150 万篇文章 / 摘要对,与来自 CNN / Daily mail 数据集的英文报纸一起,构成一个大规模的多语言数据集,可以为文本摘要社区提供新的研究方向。我们基于最先进的系统进行交叉语言比较分析,发现了现有偏见,这促使我们使用多语言数据集。
Apr, 2020
本研究提供了一个新的公开平行语料库(PMIndia),其中包含 13 种主要印度语言和英语的成对平行句子,每种语言对包含高达 56000 个句子。该语料库的构建及两种不同自动句子对齐方法的评估被描述,同时还介绍了该语料库在 NMT 方面的一些初步结果。
Jan, 2020
英语到印地语的跨语种摘要涉及文本摘要转换为另一种语言。本研究的目标是通过匹配文字和视频格式中有新闻价值的事件的报道来进行英语到印地语的跨语种摘要,以帮助数据获取。我们通过分析数据并提出方法,将文章与视频描述匹配为文档和摘要对,并提出了过滤方法以确保摘要的正确性。此外,我们提供了 28583 个单语和跨语种的文章 - 摘要对,并在收集的数据上建立和分析了多个基准,并报告了错误分析。
Dec, 2023
该研究介绍了一份名为 “XL-Sum” 的全面而多样化的数据集,其中包含来自 44 种语言的 100 万篇新闻文章及其摘要,旨在支持跨语言抽象文本摘要的未来研究工作,且在许多语言上可实现尤其高的 ROUGE-2 分数。
Jun, 2021
本文介绍了使用不同的预训练 seq2seq 模型在 ILSUM 2022 数据集上微调的结果,其中使用 PEGASUS 模型得到了最佳的英文结果,使用具有增强数据的 IndicBART 模型得到了最佳的印地语结果,并使用转换映射为基础的方法对瓜拉提语进行了微调并重新运行了 PEGASUS 模型,使用 ROUGE-1、ROUGE-2 和 ROUGE-4 作为评估度量方法进行了推理成果的评估。
Dec, 2022
该研究提出了 Mukhyansh 数据集,其中包含超过 3.39 百万个印度语言标题 - 文章对,用于解决印度语言标题生成中缺乏高质量标注数据的问题,并通过实证分析证明其表现优于其他模型,跨 8 种印度语言平均 ROUGE-L 得分为 31.43。
Nov, 2023
本研究填补了前人研究的空白,提出了一个多语种的学术领域摘要数据集,基于此我们能够训练和评估处理英语论文并生成德语、意大利语、汉语和日语摘要的模型,同时分析了在零样本和少样本情况下训练的性能。
May, 2022
印度司法体系中,针对印度语言的法律文件进行自动摘要是一个重要的问题,本研究以英语为源语言,尝试将印度的法律文件进行跨语言的英汉自动摘要。研究使用了 3122 例高质量的印度法院的判决案件,并展示了在法律领域跨语言摘要研究的必要性。
Oct, 2023