本篇文章提出了 HowSumm 这一全新的数据集,可用于针对查询的多文档摘要 (qMDS) 任务,其目标是从一组来源生成可操作的指令。通过从 wikiHow 网站文章和它们引用的来源中提取数据创建了该数据集,并讨论了与其他摘要语料库的不同之处,实验结果表明,提取式和抽象式摘要模型在该数据集上的性能仍有提升空间。
Oct, 2021
该研究介绍了 WikiLingua 项目,这是一个用于跨语言抽象摘要系统评估的大型多语种数据集。该数据集从 WikiHow 中提取出 18 种语言的文章和摘要对。研究者们使用图像对齐的方法为不同语言版本的文章与摘要建立起对应关系,并提出了一个使用合成数据和神经机器翻译的预训练方法进行直接跨语言摘要的方法,取得了显著的性能提升。
Oct, 2020
通过请高质量合同工人阅读原始文档并写出原始摘要,建立了 SQuALITY 数据集,该数据集的第一篇文章概述了主要内容,其余四篇回答了具体问题,实验证明现有自动摘要评估指标不是优秀的质量指标。
May, 2022
本研究介绍了一种新的包含长型叙述文本的数据集 BookSum。这个数据集覆盖了文学领域的原始文件,并包含三种难度递增的高度抽象的人工撰写的摘要,涵盖段落、章节和整本书的水平。通过该任务的训练和测试,本研究基于此数据集建立了多个抽取和摘要式自动文摘模型。
May, 2021
本研究手动分析了三个流行的摘要数据集中的 600 份样本,并对 27 个最先进的摘要模型和 5 个流行的度量标准进行了彻底分析。 研究揭示出数据集具有不同的数据质量和复杂度分布,对样本复杂度强烈依赖,以及基于引用文本的质量差异导致真实摘要得分偏低等关键见解。
Jun, 2021
介绍了一个新的名为 WikiDes 的数据集,利用 T5 和 BART 等预训练模型实现了基于传递学习和对比学习的短描述生成和排名。结果表明,该方法在文本摘要中的表现优于传统方法,并可用于生成缺失的描述,丰富 Wikidata 知识图谱。
Sep, 2022
本研究提出了一个新的数据集 BIGPATENT,包含了 130 万条美国专利文件及其人工写成的抽象摘要,其中摘要具有更丰富的信息结构和更均匀地分布在原始文件中,且比现有的数据集具有更少和更短的提取片段,在此基础上,我们使用各种学习模型对 BIGPATENT 进行了训练和评估,以揭示新的挑战和激励未来的总结研究方向。
Jun, 2019
通过抽取式摘要识别重要信息并使用神经摘要模型生成文章及段落以及整个维基百科文章,特别是引入可扩展关注长序列的仅解码器结构,当给定参考文献时,该模型可以提取相关的事实信息。
Jan, 2018
本文介绍了 TLDR9 +—— 一个从 Reddit 讨论论坛中提取的包含 900 万多个训练实例的大规模摘要数据集,旨在进行极端摘要,并通过人工注释蒸馏出更细粒度的 TLDRHQ 数据集,进一步点出我们所提出的数据集上不同的最先进的摘要模型。
利用搜索和社交媒体元数据,我们构建了 1.3 百万篇文章及其摘要的 NEWSROOM 数据集,包含不同风格的抽象和抽取策略,为评估该数据集的效用和挑战,我们对该数据集进行了分析和训练现有方法。
Apr, 2018