抽象的面向查询的多文档摘要生成的数据增强
本文提出了一种名为 AQuaMuSe 的可扩展方法,用于自动从问答数据集和大型文档语料库中挖掘基于查询的多文档摘要示例,其中包括种类独特的可提取和抽象式摘要数据集,并提供了详细的数据集评估和基线摘要模型实验。
Oct, 2020
本文通过利用远程监督的方法来进行弱监督学习,使用类似于目标数据集的数据作为训练数据,借助预训练的句子相似度模型生成每个文档的弱参考摘要,进而在多篇文档中逐一确定单篇文档的摘要,最终在 DUC 数据集上以多种评价指标居于业内领先水平。
Nov, 2020
本文介绍了首个大规模多文档新闻数据集 Multi-News,并提出一个将传统提取式摘要模型与标准单文档摘要模型结合的端到端模型,取得了有竞争力的结果。我们在 Multi-News 上比较了几种方法,并希望我们的数据和代码能促进多文档摘要领域的进展。
Jun, 2019
本文针对多文档自动摘要问题,提出了一个基于小型多文档训练集的神经抽象模型 fine-tuning 方法,实证结果在两个基准 DUC 数据集上表现优异。
Apr, 2018
本文介绍了一个新的数据集来解决阅读者感知的多文档摘要问题;通过扩展基于变分自动编解码器的 MDS 框架,共同考虑新闻文档和读者评论。实验结果表明,读者评论能够提高摘要的表现,并证明了所提出的数据集的实用性。
Aug, 2017
本研究提出了一种基于维基百科的方法收集一个大规模的问题导向文本摘要数据集 (WIKIREF) 并用于数据增广,同时使用 BERT 算法开发出一个 Q-BERT 模型进行摘要提取,采用细调神经网络方法,将海量参数的大模型适应于小型基准测试,实验证明该方法提升了机器摘要的性能。
Nov, 2019
通过使用 SUMMaug,一种简单但有效的基于摘要的数据增强方法,我们能够解决预训练语言模型在理解长文本(如文档)时遇到的数据稀疏问题,并在文档分类任务中取得了稳健性和准确性上的优势。
Dec, 2023
通过数据合成、数据增强、课程学习等方法,不需要额外的数据,即可改善抽象摘要模型的性能。研究表明,采用这三种方法可以在两个摘要模型和两个不同的小数据集上改善抽象摘要。此外,当分别应用和组合使用这些技术时,它们都可以提高性能。
Sep, 2021
这项研究介绍了一种新的方法,增强型查询摘要(AQS),用于针对主题的摘要,无需大量标记数据集,利用查询扩展和分层聚类。通过 real-world 测试,我们的方法展示了生成相关和准确的摘要的能力,显示其在数据丰富环境中作为一种经济高效的解决方案的潜力,为主题聚焦摘要技术领域中的更广泛应用和可访问性铺平了道路,提供了一种可扩展的、高效的个性化内容提取方法。
Apr, 2024
开发了一种基于抽象的总结框架,适用于多个异构文档,该框架独立于标记数据。 与现有的多文件总结方法不同,我们的框架处理讲述不同故事的文档,而不是同一主题的文档。 最后,我们基于 CNN / Daily Mail 和 NewsRoom 数据集构建了总共十二个数据集变体,其中每个文档组都包含大量且多样化的文档,以评估我们的模型与其他基线系统的性能。 我们的实验表明,我们的框架在这种更通用的情况下胜过了现有的最先进方法。
May, 2022