PMIndiaSum: 面向印度的多语和跨语言头条摘要

May, 2023

PMIndiaSum: 面向印度的多语和跨语言头条摘要

PMIndiaSum: Multilingual and Cross-lingual Headline Summarization for Languages in India

PDF

Ashok Urlana, Pinzhen Chen, Zheng Zhao, Shay B. Cohen, Manish Shrivastava...

TL;DR本文介绍了 PMIndiaSum，一个针对印度语言的多语言和大规模并行的标题摘要语料库，并为单语、跨语言和多语言摘要提供了基准和数据测试。

Abstract

This paper introduces pmindiasum, a new multilingual and massively parallel headline summarization →

pmindiasum multilingual summarization india corpus

发现论文，激发创造

CrossSum: 跨越 1500 多种语言对的英语中心的跨语言生成性文本摘要

通过跨语言检索，提出跨语言摘要数据集 CrossSum 及其训练模型，表现出优异的 ROUGE 和 LaSE 性能，成为目前最大的跨语言摘要数据集

Dec, 2021

跨语言摘要模型与数据集

本文介绍了使用跨语言文献和维基百科创建的跨语言摘要语料库，在多种语言和方向上建立了多句子摘要数据。作者使用自动指标并进行人类研究，验证了所提出的跨语言摘要任务。最后，作者还用该数据集和多语言预训练模型进行了大量的实验证明其实用性。

Feb, 2022

MLSUM: 多语言摘要语料库

我们提出了 MLSUM，这是第一个大规模的多语言摘要数据集，包括五种不同语言的 150 万篇文章 / 摘要对，与来自 CNN / Daily mail 数据集的英文报纸一起，构成一个大规模的多语言数据集，可以为文本摘要社区提供新的研究方向。我们基于最先进的系统进行交叉语言比较分析，发现了现有偏见，这促使我们使用多语言数据集。

Apr, 2020

PMIndia -- 印度语言平行语料库集合

本研究提供了一个新的公开平行语料库（PMIndia），其中包含 13 种主要印度语言和英语的成对平行句子，每种语言对包含高达 56000 个句子。该语料库的构建及两种不同自动句子对齐方法的评估被描述，同时还介绍了该语料库在 NMT 方面的一些初步结果。

Jan, 2020

跨语言摘要的自动数据检索

英语到印地语的跨语种摘要涉及文本摘要转换为另一种语言。本研究的目标是通过匹配文字和视频格式中有新闻价值的事件的报道来进行英语到印地语的跨语种摘要，以帮助数据获取。我们通过分析数据并提出方法，将文章与视频描述匹配为文档和摘要对，并提出了过滤方法以确保摘要的正确性。此外，我们提供了 28583 个单语和跨语种的文章 - 摘要对，并在收集的数据上建立和分析了多个基准，并报告了错误分析。

Dec, 2023

XL-Sum：针对 44 种语言的大规模多语言抽象摘要

该研究介绍了一份名为 “XL-Sum” 的全面而多样化的数据集，其中包含来自 44 种语言的 100 万篇新闻文章及其摘要，旨在支持跨语言抽象文本摘要的未来研究工作，且在许多语言上可实现尤其高的 ROUGE-2 分数。

Jun, 2021

应用基于深度学习的方法实现印度语言文章摘要

本文介绍了使用不同的预训练 seq2seq 模型在 ILSUM 2022 数据集上微调的结果，其中使用 PEGASUS 模型得到了最佳的英文结果，使用具有增强数据的 IndicBART 模型得到了最佳的印地语结果，并使用转换映射为基础的方法对瓜拉提语进行了微调并重新运行了 PEGASUS 模型，使用 ROUGE-1、ROUGE-2 和 ROUGE-4 作为评估度量方法进行了推理成果的评估。

Dec, 2022

Mukhyansh：面向印度语言的标题生成数据集

该研究提出了 Mukhyansh 数据集，其中包含超过 3.39 百万个印度语言标题 - 文章对，用于解决印度语言标题生成中缺乏高质量标注数据的问题，并通过实证分析证明其表现优于其他模型，跨 8 种印度语言平均 ROUGE-L 得分为 31.43。

Nov, 2023

X-SCITLDR：学术文献的跨语言极端摘要

本研究填补了前人研究的空白，提出了一个多语种的学术领域摘要数据集，基于此我们能够训练和评估处理英语论文并生成德语、意大利语、汉语和日语摘要的模型，同时分析了在零样本和少样本情况下训练的性能。

May, 2022

MILDSum：用于印度法律案例判决的多语言摘要的新型基准数据集

印度司法体系中，针对印度语言的法律文件进行自动摘要是一个重要的问题，本研究以英语为源语言，尝试将印度的法律文件进行跨语言的英汉自动摘要。研究使用了 3122 例高质量的印度法院的判决案件，并展示了在法律领域跨语言摘要研究的必要性。

Oct, 2023