TGSum: 基于推特的多文档摘要数据集构建

AAAINov, 2015

TGSum: 基于推特的多文档摘要数据集构建

TGSum: Build Tweet Guided Multi-Document Summarization Dataset

Ziqiang Cao, Chengyao Chen, Wenjie Li, Sujian Li, Furu Wei...

TL;DR本研究提出了一种采用两种社交标签（即标签和链接）自动收集大规模新闻相关多文档摘要的有效方式，使用 ROUGE 指标和整数线性规划解决方案来生成摘要，收集的数据可用于支持向量回归自动文摘器的训练，提高了其性能。

Abstract

The development of summarization research has been significantly hampered by the costly acquisition of reference summaries. This paper proposes an effective way to automatically collect large scales of news-related multi-document summaries with reference to →

summarization research multi-document summaries social media rouge metrics support vector regression

发现论文，激发创造

ADSumm：用于灾难推文摘要的标注真实摘要数据集

在线社交媒体平台，在灾难事件中提供有价值的信息。本研究介绍了 ADSomm，为八个灾难事件添加了关注度，相关性和多样性，通过改进现有的监督性总结方法的性能提高了 8-28％的 ROUGE-N F1 分数。

May, 2024

基于模板的微博抽象观点摘要

本研究介绍了微博观点摘要（MOS）的任务以及共享了一个数据集，包含 3100 个金标准意见摘要，其中摘要是新闻记者根据模板区分事实信息（主要内容）和作者意见创建的。该研究提供了基于抽象和提取式自动摘要方法的实验结果，并证明精调可以提高自动摘要的性能。

Aug, 2022

利用信息提取和压缩进行大规模多文档摘要

开发了一种基于抽象的总结框架，适用于多个异构文档，该框架独立于标记数据。与现有的多文件总结方法不同，我们的框架处理讲述不同故事的文档，而不是同一主题的文档。最后，我们基于 CNN / Daily Mail 和 NewsRoom 数据集构建了总共十二个数据集变体，其中每个文档组都包含大量且多样化的文档，以评估我们的模型与其他基线系统的性能。我们的实验表明，我们的框架在这种更通用的情况下胜过了现有的最先进方法。

May, 2022

GSum: 一种用于引导神经抽象摘要的通用框架

本文提出了一个通用可扩展的引导式摘要框架（GSum），可以有效地将不同种类的外部引导作为输入，通过实验表明了该模型在使用突出显示的句子作为引导时，在 4 个流行的摘要数据集上实现了 ROUGE 的最优性能，同时我们还展示了我们的引导模型可以生成更忠实的摘要，并展示了不同类型的引导所生成的不同摘要，为学习模型提供了一定程度的可控性。

Oct, 2020

使用 GPT 对大型文档集进行抽象摘要

本研究提出了一种抽象化汇总方法，可用于文档集合而非个别文档。我们的方法应用语义聚类、主题聚类内的文档大小缩减、聚类文件的语义分块、基于 GPT 的汇总和连接以及每个主题的综合情感和文本可视化，支持探索性数据分析。通过使用 ROGUE 汇总分数将我们的结果与现有的先进系统 BART、BRIO、PEGASUS 和 MoCa 进行了统计比较，我们发现在 CNN/Daily Mail 测试数据集上，性能与 BART 和 PEGASUS 相当，在 Gigaword 测试数据集上，性能与 BART 相当。这一发现是令人鼓舞的，因为我们认为文档集合的汇总比个别文档的汇总更具挑战性。最后，我们讨论了规模问题。

Oct, 2023

TWEETSUMM -- 面向客服的对话摘要数据集

这篇论文介绍了一种自动化客服聊天总结的方法，其中利用了一个大规模的客户支持对话总结数据集和一种针对对话的无监督式提取性总结方法。

Nov, 2021

GUMSum：英文抽象摘要的多语种数据和评估

本文提出了 GUMSum 数据集，旨在评估抽象概括的英语摘要。该数据集高度约束，注重替换潜力、事实和忠实度，结果显示 GPT3 达到了令人印象深刻的得分，但仍然表现不如人类，并且不同类型的错误揭示了生成好概括的挑战。

Jun, 2023

SueNes：一种弱监督方法通过负采样评估单文档摘要

本文提出了一种无需参考摘要的弱监督自动摘要评估方法，通过将现有摘要数据集中的大量数据与损坏的参考摘要进行配对来训练，实现了横向领域测试，证明了该方法在语言质量评估方面具有很大优势。

May, 2020

SciBERTSUM: 面向科学文档的提取式摘要

SciBERTSUM 是一种针对科学论文的摘要框架，通过增加节嵌入层和应用稀疏注意力机制，在长文本（超过 500 句）中表现出更好的 ROUGE 分数。

Jan, 2022

ATSumm: 辅助信息增强的基于稀疏训练数据的抽象灾难推文摘要方法

本研究提出了一种利用辅助信息的抽象推文摘要工具，通过使用独特的关键短语注意机制，引入了 Auxiliary Pointer Generator Network（AuxPGN）模型。评估结果表明，ATSumm 相对于现有方法在 ROUGE-N F1-score 指标上实现了 4-80% 的改进。

May, 2024