NarraSum:大规模抽象叙述摘要数据集
本研究介绍了一种新的包含长型叙述文本的数据集 BookSum。这个数据集覆盖了文学领域的原始文件,并包含三种难度递增的高度抽象的人工撰写的摘要,涵盖段落、章节和整本书的水平。通过该任务的训练和测试,本研究基于此数据集建立了多个抽取和摘要式自动文摘模型。
May, 2021
介绍了一个名叫 MediaSum 的大规模媒体采访数据集,包含 463.6K 份采访文本和摘要,被用于探究电视和广播采访文本的独特位置偏差以及转移学习在改进对话摘要模型上的应用。
Mar, 2021
该研究介绍了一个摘要数据集,提供了一个具有挑战性的抽象摘要测试平台,并通过对神经模型和邻近算法等多种方法的评估,展示了神经模型无法充分利用输入文本的事实,同时证明了我们的非最优模型在生成忠实的情节事件方面具有竞争力,并可以从更好的内容选择器中受益。
Apr, 2021
本文介绍了一个大规模印尼文摘要数据集,使用预训练语言模型开发了基于 BERT 多语言和单语言的抽取式、生成式摘要方法,并通过对 ROUGE 得分较低的机器生成摘要进行了彻底的误差分析,揭示了 ROUGE 本身以及抽取式、生成式摘要模型的问题。
Nov, 2020
本研究介绍了 SAMSum 语料库,这是一个新的抽象对话摘要数据集,研究人员使用多个模型进行测试,并将其结果与新闻文章语料库的结果进行比较,结果显示与人类评估者的判断相反,模型生成的对话摘要具有更高的 ROUGE 分数,这表明需要使用专用模型和非标准质量度量的抽象对话摘要这一具有挑战性的任务,据我们所知,这是引入高质量聊天对话语料库的第一次尝试,并手动注释了抽象摘要,可供研究人员进行进一步研究。
Nov, 2019
该研究介绍了一份名为 “XL-Sum” 的全面而多样化的数据集,其中包含来自 44 种语言的 100 万篇新闻文章及其摘要,旨在支持跨语言抽象文本摘要的未来研究工作,且在许多语言上可实现尤其高的 ROUGE-2 分数。
Jun, 2021
本研究提出了一个新的数据集 BIGPATENT,包含了 130 万条美国专利文件及其人工写成的抽象摘要,其中摘要具有更丰富的信息结构和更均匀地分布在原始文件中,且比现有的数据集具有更少和更短的提取片段,在此基础上,我们使用各种学习模型对 BIGPATENT 进行了训练和评估,以揭示新的挑战和激励未来的总结研究方向。
Jun, 2019
本文介绍了 TLDR9 +—— 一个从 Reddit 讨论论坛中提取的包含 900 万多个训练实例的大规模摘要数据集,旨在进行极端摘要,并通过人工注释蒸馏出更细粒度的 TLDRHQ 数据集,进一步点出我们所提出的数据集上不同的最先进的摘要模型。
Oct, 2021
本研究介绍了一种基于在线知识库的数据集 WikiHow,包含超过 230,000 个文章和摘要对,用于评估现有的序列到序列模型在不同写作风格、更高语义抽象度的摘要中的性能。
Oct, 2018
本文介绍了 IndoSum,一个新的印度尼西亚文本摘要基准数据集,采用新闻文章和手动构建的摘要,该数据集是先前相同领域的数据集的近 200 倍,使用各种抽取式摘要方法进行了评估,获得了令人鼓舞的结果,为未来研究提供了基准。
Oct, 2018