SUMIE: 增量实体摘要的合成基准

Jun, 2024

SUMIE: A Synthetic Benchmark for Incremental Entity Summarization

Eunjeong Hwang, Yichao Zhou, Beliz Gunel, James Bradley Wendt, Sandeep Tata

TL;DRSUMIE 是一个完全合成的数据集，用于暴露现实世界的增量实体摘要挑战，验证了生成的摘要与段落之间的高质量一致性，该数据集难度高，先进的语言模型在更新摘要时的 F1 得分超过 80.4%。

Abstract

No existing dataset adequately tests how well language models can incrementally update entity summaries - a crucial ability as these models rapidly advance. The incremental entity summarization (IES) task is vital for maintaining accurate, up-to-date knowledge. To address this, we intr

incremental entity summarization ies task synthetic dataset entity association real-world data

发现论文，激发创造

IndoSum: 一种新的印尼文本摘要基准数据集

本文介绍了 IndoSum，一个新的印度尼西亚文本摘要基准数据集，采用新闻文章和手动构建的摘要，该数据集是先前相同领域的数据集的近 200 倍，使用各种抽取式摘要方法进行了评估，获得了令人鼓舞的结果，为未来研究提供了基准。

Oct, 2018

EntSUM：面向实体的摘要数据集

该研究提出了一个面向实体的可控摘要任务，并介绍了一个名为 EntSUM 的人工注释数据集，证明了现有的可控摘要方法无法生成实体为中心的摘要，提出了一种方法来改善此问题。

Apr, 2022

统一多场景摘要评估 (UMSE)

提出了一种用于三种摘要评估方案的统一多方案摘要评估模型（UMSE），其中使用扰动前缀调整方法来共享不同方案之间的信息，通过自监督训练偏向优化统一模型。在常见的标准数据集 SummEval 上进行的实验结果表明，UMSE 的性能可以与专门针对每种情况进行设计的现有强方法相媲美。

May, 2023

学术出版物的结构化摘要

提出一种名为 SUSIE 的新型科技论文摘要方法，可与最先进的摘要模型结合使用，用于生成学术论文的结构摘要。同时，创建了一个适用于神经网络结构摘要任务的新的学术出版物数据集 PMC-SA，并将 SUSIE 与三种不同的摘要模型结合应用于该数据集，结果表明所提出的方法可将所有模型的性能提高多达 4 个 ROUGE 点。

May, 2019

USB：跨任务和领域的统一摘要基准

本研究提出一个多维理解摘要的基准测试，并在其上比较了多种模型的性能，发现中等规模的微调模型在多个任务上始终优于更大的几次提示语言模型。同时发现，对于某些任务，训练数据的数量比其来源领域更重要，而对于其他任务，尽管数据量有限，但特定领域的数据更为有益。

May, 2023

基于谓词匹配的实体摘要

本文提出了一种名为 MPSUM 的方法来解决实体概括生成的问题，该方法使用概率主题模型并集成谓词唯一性和对象重要性的想法进行三元组排名，以生成简洁但代表性的实体概括。在使用 DBpedia 和 LinkedMDB 数据集进行对比实验后，结果表明我们的方法提高了实体概括的质量。

May, 2020

通过将上下文嵌入分配给参考文本主题来实现可解释的摘要评估

本文提出了一种基于多方面可解释性的自动摘要评估方法（MISEM），包括语义主题识别和交互式可视化分析工具。该方法针对自动生成的摘要进行评估，达到了.404 的人类判断相关性，能够通过单一评分系统难以实现的透明评估和深度质量分析。

Oct, 2022

解锁科学：跨模态科学信息提取的新型数据集和基准

从科学论文中提取关键信息有助于研究人员提高工作效率并加快科学进展的速度。在过去几年里，科学信息提取（SciIE）的研究见证了数个新系统和基准的发布。然而，现有以论文为中心的数据集主要只关注论文的特定部分（例如摘要），且为单模态（即只有文本或表格），这是因为处理复杂性和高昂的注释费用所导致。此外，核心信息可能存在于文本或表格中，或者跨越二者。为弥补这一数据可用性的差距并实现跨模态信息提取，同时减轻标注成本，我们提出了一个半监督的流程，用于迭代地对文本中的实体、以及表格中的实体和关系进行注释。基于此流程，我们为科学界提供了一些新资源，包括一个高质量的基准、一个大型语料库和一个半监督的注释流程。我们进一步报告了最先进的信息提取模型在提出的基准数据集上的性能作为一个基准。最后，我们探索了像 ChatGPT 这样的大型语言模型在当前任务中的潜在能力。我们的新数据集、结果和分析验证了半监督流程的有效性和效率，同时我们也讨论了其剩余的局限性。

Nov, 2023

应用基于深度学习的方法实现印度语言文章摘要

本文介绍了使用不同的预训练 seq2seq 模型在 ILSUM 2022 数据集上微调的结果，其中使用 PEGASUS 模型得到了最佳的英文结果，使用具有增强数据的 IndicBART 模型得到了最佳的印地语结果，并使用转换映射为基础的方法对瓜拉提语进行了微调并重新运行了 PEGASUS 模型，使用 ROUGE-1、ROUGE-2 和 ROUGE-4 作为评估度量方法进行了推理成果的评估。

Dec, 2022

你熟悉哪些摘要数据集？

本研究手动分析了三个流行的摘要数据集中的 600 份样本，并对 27 个最先进的摘要模型和 5 个流行的度量标准进行了彻底分析。研究揭示出数据集具有不同的数据质量和复杂度分布，对样本复杂度强烈依赖，以及基于引用文本的质量差异导致真实摘要得分偏低等关键见解。

Jun, 2021