TGSum: 基于推特的多文档摘要数据集构建
在线社交媒体平台,在灾难事件中提供有价值的信息。本研究介绍了 ADSomm,为八个灾难事件添加了关注度,相关性和多样性,通过改进现有的监督性总结方法的性能提高了 8-28%的 ROUGE-N F1 分数。
May, 2024
本研究介绍了微博观点摘要(MOS)的任务以及共享了一个数据集,包含 3100 个金标准意见摘要,其中摘要是新闻记者根据模板区分事实信息(主要内容)和作者意见创建的。该研究提供了基于抽象和提取式自动摘要方法的实验结果,并证明精调可以提高自动摘要的性能。
Aug, 2022
开发了一种基于抽象的总结框架,适用于多个异构文档,该框架独立于标记数据。 与现有的多文件总结方法不同,我们的框架处理讲述不同故事的文档,而不是同一主题的文档。 最后,我们基于 CNN / Daily Mail 和 NewsRoom 数据集构建了总共十二个数据集变体,其中每个文档组都包含大量且多样化的文档,以评估我们的模型与其他基线系统的性能。 我们的实验表明,我们的框架在这种更通用的情况下胜过了现有的最先进方法。
May, 2022
本文提出了一个通用可扩展的引导式摘要框架(GSum),可以有效地将不同种类的外部引导作为输入,通过实验表明了该模型在使用突出显示的句子作为引导时,在 4 个流行的摘要数据集上实现了 ROUGE 的最优性能,同时我们还展示了我们的引导模型可以生成更忠实的摘要,并展示了不同类型的引导所生成的不同摘要,为学习模型提供了一定程度的可控性。
Oct, 2020
本研究提出了一种抽象化汇总方法,可用于文档集合而非个别文档。我们的方法应用语义聚类、主题聚类内的文档大小缩减、聚类文件的语义分块、基于 GPT 的汇总和连接以及每个主题的综合情感和文本可视化,支持探索性数据分析。通过使用 ROGUE 汇总分数将我们的结果与现有的先进系统 BART、BRIO、PEGASUS 和 MoCa 进行了统计比较,我们发现在 CNN/Daily Mail 测试数据集上,性能与 BART 和 PEGASUS 相当,在 Gigaword 测试数据集上,性能与 BART 相当。这一发现是令人鼓舞的,因为我们认为文档集合的汇总比个别文档的汇总更具挑战性。最后,我们讨论了规模问题。
Oct, 2023
本文提出了 GUMSum 数据集,旨在评估抽象概括的英语摘要。该数据集高度约束,注重替换潜力、事实和忠实度,结果显示 GPT3 达到了令人印象深刻的得分,但仍然表现不如人类,并且不同类型的错误揭示了生成好概括的挑战。
Jun, 2023
本文提出了一种无需参考摘要的弱监督自动摘要评估方法,通过将现有摘要数据集中的大量数据与损坏的参考摘要进行配对来训练,实现了横向领域测试,证明了该方法在语言质量评估方面具有很大优势。
May, 2020
SciBERTSUM 是一种针对科学论文的摘要框架,通过增加节嵌入层和应用稀疏注意力机制,在长文本(超过 500 句)中表现出更好的 ROUGE 分数。
Jan, 2022
本研究提出了一种利用辅助信息的抽象推文摘要工具,通过使用独特的关键短语注意机制,引入了 Auxiliary Pointer Generator Network(AuxPGN)模型。评估结果表明,ATSumm 相对于现有方法在 ROUGE-N F1-score 指标上实现了 4-80% 的改进。
May, 2024