IndoSum: 一种新的印尼文本摘要基准数据集

Oct, 2018

IndoSum: 一种新的印尼文本摘要基准数据集

IndoSum: A New Benchmark Dataset for Indonesian Text Summarization

Kemal Kurniawan, Samuel Louvan

TL;DR本文介绍了 IndoSum，一个新的印度尼西亚文本摘要基准数据集，采用新闻文章和手动构建的摘要，该数据集是先前相同领域的数据集的近 200 倍，使用各种抽取式摘要方法进行了评估，获得了令人鼓舞的结果，为未来研究提供了基准。

Abstract

automatic text summarization is generally considered as a challenging task in the nlp community. One of the challenges is the publicly available and large dataset that is relatively rare and difficult to construc

automatic text summarization nlp indosum indonesian benchmark dataset

发现论文，激发创造

Liputan6：一个用于文本摘要的大规模印度尼西亚数据集

本文介绍了一个大规模印尼文摘要数据集，使用预训练语言模型开发了基于 BERT 多语言和单语言的抽取式、生成式摘要方法，并通过对 ROUGE 得分较低的机器生成摘要进行了彻底的误差分析，揭示了 ROUGE 本身以及抽取式、生成式摘要模型的问题。

Nov, 2020

应用基于深度学习的方法实现印度语言文章摘要

本文介绍了使用不同的预训练 seq2seq 模型在 ILSUM 2022 数据集上微调的结果，其中使用 PEGASUS 模型得到了最佳的英文结果，使用具有增强数据的 IndicBART 模型得到了最佳的印地语结果，并使用转换映射为基础的方法对瓜拉提语进行了微调并重新运行了 PEGASUS 模型，使用 ROUGE-1、ROUGE-2 和 ROUGE-4 作为评估度量方法进行了推理成果的评估。

Dec, 2022

HunSum-1：匈牙利文抽象摘要数据集

介绍 HunSum-1: 一个用于匈牙利摘要生成的数据集，包含 114 万条新闻文章；该数据集是通过 CommonCrawl 从 9 个主要的匈牙利新闻网站收集，清理和去重而构建的；使用该数据集，我们基于 huBERT 和 mT5 构建抽象摘要模型，并对模型结果进行了定量和定性分析。

Feb, 2023

SUMIE: 增量实体摘要的合成基准

SUMIE 是一个完全合成的数据集，用于暴露现实世界的增量实体摘要挑战，验证了生成的摘要与段落之间的高质量一致性，该数据集难度高，先进的语言模型在更新摘要时的 F1 得分超过 80.4%。

Jun, 2024

SQuALITY: 用较困难的方式构建长文摘要数据集

通过请高质量合同工人阅读原始文档并写出原始摘要，建立了 SQuALITY 数据集，该数据集的第一篇文章概述了主要内容，其余四篇回答了具体问题，实验证明现有自动摘要评估指标不是优秀的质量指标。

May, 2022

PMIndiaSum: 面向印度的多语和跨语言头条摘要

本文介绍了 PMIndiaSum，一个针对印度语言的多语言和大规模并行的标题摘要语料库，并为单语、跨语言和多语言摘要提供了基准和数据测试。

May, 2023

ACLSum: 科学出版物面向方面的概述的新数据集

提供了一个由领域专家精心制作和评估的新型摘要数据集 ACLSum，集成了多个方面的科学论文摘要，通过对预训练语言模型和最先进的大型语言模型（LLMs）的性能进行广泛实验，探索学术领域中抽取式与生成式摘要的有效性，结果证实了在学术领域中端到端基于方面的摘要的普遍优越性。

Mar, 2024

BookSum：用于长篇叙述摘要的数据集合集

本研究介绍了一种新的包含长型叙述文本的数据集 BookSum。这个数据集覆盖了文学领域的原始文件，并包含三种难度递增的高度抽象的人工撰写的摘要，涵盖段落、章节和整本书的水平。通过该任务的训练和测试，本研究基于此数据集建立了多个抽取和摘要式自动文摘模型。

May, 2021

长文本和多表总结：数据集和方法

旨在创造简明摘要以涵盖输入文档的要点信息。自动文档摘要对文本和非文本内容进行了讨论，提出了涵盖定量描述的关键指标的表格数据的重要性，提出了一个大规模数据集和三种摘要方法，还评估了评估指标

Feb, 2023

MultiSum：用于视频的多模式摘要和缩略图生成的数据集

通过创建包含视频和文本内容的人工验证摘要、17 个主分类和 170 个子分类的全面的数据集 MultiSum dataset，本文针对现有公共 MSMO 数据集的限制进行研究，进行了基准测试，并推出了数据收集工具和开放源代码资源以促进透明度和加速未来发展。

Jun, 2023