用于文本摘要的印度语言数据集概述

Mar, 2022

用于文本摘要的印度语言数据集概述

An Overview of Indian Language Datasets used for Text Summarization

Shagun Sinha, Girish Nath Jha

TL;DR我们对印度语言中的文本摘要（TS）数据集进行了调查，结果发现由于缺乏专门的论坛和共享标准数据集，印度语言中的TS数据集数量相对较少，资源匮乏是一个问题。

Abstract

In this paper, we survey text summarization (TS) datasets in Indian Lan-guages (ILs), which are also low-resource languages (LRLs). We see

发现论文，激发创造

IndoSum: 一种新的印尼文本摘要基准数据集

本文介绍了IndoSum，一个新的印度尼西亚文本摘要基准数据集，采用新闻文章和手动构建的摘要，该数据集是先前相同领域的数据集的近200倍，使用各种抽取式摘要方法进行了评估，获得了令人鼓舞的结果，为未来研究提供了基准。

Oct, 2018

XL-Sum：针对 44 种语言的大规模多语言抽象摘要

该研究介绍了一份名为“XL-Sum”的全面而多样化的数据集，其中包含来自44种语言的100万篇新闻文章及其摘要，旨在支持跨语言抽象文本摘要的未来研究工作，且在许多语言上可实现尤其高的ROUGE-2分数。

Jun, 2021

应用基于深度学习的方法实现印度语言文章摘要

本文介绍了使用不同的预训练seq2seq模型在ILSUM 2022数据集上微调的结果，其中使用 PEGASUS 模型得到了最佳的英文结果，使用具有增强数据的IndicBART模型得到了最佳的印地语结果，并使用转换映射为基础的方法对瓜拉提语进行了微调并重新运行了PEGASUS模型，使用ROUGE-1、ROUGE-2和ROUGE-4作为评估度量方法进行了推理成果的评估。

Dec, 2022

LR-Sum：面向资源匮乏语种的摘要生成

LR-Sum是一个使用创意共享许可证创建的包含40种语言的分别用于多语言新闻概要的数据集，旨在促进对低资源语言自动概括的进一步研究。本文描述了从Multilingual Open Text语料库中提取和筛选出该数据集的过程，同时讨论了该数据集的限制和用途。

Dec, 2022

德国（抽象）文本摘要情况

本研究评估了德语抽象文本摘要的特定现状，并调查现实情形下为什么有效的抽象文本摘要解决方案在工业界仍然缺失。我们的重点是分析训练资源和公开可用的摘要系统，并发现现有的数据集和系统存在极大的缺陷和评估偏差。此外，我们发现现有的系统经常不能与简单的基准线进行比较，并且忽略了更有效和高效的摘要方法。

Jan, 2023

使用预训练序列到序列模型进行印度语文摘要

本研究主要关注以预训练序列到序列模型为基础进行文本摘要的任务，研究内容涉及英语、印地语和古吉拉特语。我们尝试了多种模型，对不同模型在三个子任务上的效果进行了对比，同时对数据大小和过滤对模型效果的影响进行了分析。研究发现在有限的数据大小下，k折交叉验证可以显著提高模型效果。

Mar, 2023

使用多语言变压器模型对印度语言进行摘要

本研究采用IndicBART和mT5模型，研究它们在印度语言数据集上的摘要性能，结果以ROUGE-1、ROUGE-2、ROUGE-3和ROUGE-4分数为性能指标。

Mar, 2023

利用预训练语言模型进行低资源摘要

利用自注意力变换器模型（mBERT, mT5）以及构建新的基准数据集（76.5k的文章摘要对），在资源有限的语言乌尔都语中，提出了一个自适应低资源摘要方法，能够有效地捕捉低资源语言的上下文信息并取得与英文高资源语言中最先进模型相媲美的评估结果。

Oct, 2023

大语言模型的文本摘要：MPT-7b-instruct、Falcon-7b-instruct和OpenAI Chat-GPT模型的比较研究

这篇研究论文使用了各种不同的大型语言模型，包括MPT-7b-instruct，falcon-7b-instruct和OpenAI ChatGPT text-davinci-003模型，通过不同的超参数对生成的摘要进行评估，并发现text-davinci-003模型的表现优于其他模型。该研究还分析了CNN Daily Mail和XSum两个不同的数据集，旨在提供对大型语言模型在不同数据集上应用时性能的全面理解。这项工作为对NLP领域的研究人员和从业者提供了有价值的见解，同时也为开发应对各种业务挑战的高级生成式人工智能应用奠定了基础。

Oct, 2023

跨语言摘要的自动数据检索

英语到印地语的跨语种摘要涉及文本摘要转换为另一种语言。本研究的目标是通过匹配文字和视频格式中有新闻价值的事件的报道来进行英语到印地语的跨语种摘要，以帮助数据获取。我们通过分析数据并提出方法，将文章与视频描述匹配为文档和摘要对，并提出了过滤方法以确保摘要的正确性。此外，我们提供了28583个单语和跨语种的文章-摘要对，并在收集的数据上建立和分析了多个基准，并报告了错误分析。

Dec, 2023