基于 LLM 的多文档总结:利用主事件有偏单调子模函数内容提取
在多篇文档新闻摘要研究中,以往研究通常集中于整合各个来源都同意的信息。然而,据我们所知,以往尚未研究过涉及同一事件的多篇文章中分散的多样信息的摘要。后者为摘要模型提出了一组不同的挑战。在本文中,我们提出了一个新任务,即摘要涉及同一事件的多篇新闻文章中的多样信息。为了完成这项任务,我们确定了一个用于识别多样信息的数据收集模式,并创建了一个名为 DiverseSumm 的数据集。该数据集包含 245 个新闻故事,每个故事包括 10 篇新闻文章,并配有人工验证的参考摘要。此外,我们进行了全面的分析,以确定基于大型语言模型(LLM)的度量标准在评估摘要的全面性和忠实度时存在的位置和冗长偏差,以及它们与人工评估的相关性。我们应用我们的发现来研究 LLMs 如何通过分析 LLMs 能够识别哪种类型的多样信息来摘要多篇新闻文章。我们的分析表明,尽管 LLMs 在单篇文档摘要方面具有非凡的能力,但对于他们来说,所提出的任务仍然是一个复杂的挑战,主要是由于他们的覆盖范围有限,GPT-4 只能够平均覆盖不到 40% 的多样信息。
Sep, 2023
介绍了事件关键摘要(EKS),它是传统摘要和文档级事件提取的结合,目标是根据文档和提取的事件结构为特定事件生成一个上下文化的摘要。介绍了这一任务的数据集 MUCSUM,包括经典 MUC-4 数据集中所有事件的摘要,以及预训练语言模型和更大前沿模型组成的基准集。通过减少 EKS 到传统摘要或结构转文本的消融实验,我们证明了目标事件的摘要质量会降低,而 MUCSUM 是这一任务的一个稳健的基准。最后,我们对参考摘要和模型摘要进行了人工评估,并对结果进行了详细分析。
Feb, 2024
该研究提出了一种新方法,即从长文档中提取关键句子,然后通过提示大型语言模型来评估摘要,以解决计算成本高、长文档中的重要信息往往被忽视的问题,研究结果显示该方法不仅显著降低了评估成本,而且与人工评估的相关性更高,此外,我们还提供了关于最佳文档长度和句子提取方法的实用建议,为基于大型语言模型的文本生成评估的成本效益更高且更准确的方法的发展做出了贡献。
Sep, 2023
开发了一种基于抽象的总结框架,适用于多个异构文档,该框架独立于标记数据。 与现有的多文件总结方法不同,我们的框架处理讲述不同故事的文档,而不是同一主题的文档。 最后,我们基于 CNN / Daily Mail 和 NewsRoom 数据集构建了总共十二个数据集变体,其中每个文档组都包含大量且多样化的文档,以评估我们的模型与其他基线系统的性能。 我们的实验表明,我们的框架在这种更通用的情况下胜过了现有的最先进方法。
May, 2022
通过使用具有强大的自然语言理解和生成能力的 LLM,我们提出了一种新的新闻摘要生成方法,利用 LLM 从新闻段落中的事件中提取多个结构化事件模式,通过遗传算法演化事件模式的种群,并选择最适应的事件模式输入 LLM 来生成新闻摘要。实验结果表明,新闻摘要生成器能够生成准确可靠且具有一定泛化能力的新闻摘要。
Jul, 2023
多文档摘要是自动生成与同一主题相关的多个文档的简洁摘要的过程。本文提出了一个机器学习模型,从多个新闻文档中生成主题的简洁摘要,并设计成能够公正地从各个方面均等采样输入信息,即使大多数新闻来源倾向于一方。
Dec, 2023
本文介绍了第一个无监督的多粒度文本摘要框架,GranuSum。使用事件作为源文件的基本语义单元并通过它们的显著性对其进行排序,我们开发了一种模型,以给定事件作为锚点和提示来摘要输入文档,并且 GranuSum 能够以无监督的方式生成多粒度摘要。实验结果表明 GranuSum 在多粒度摘要方面具有显着的优越性。
Jan, 2022
这项研究通过利用投票算法,提出了一种新的框架 LaMSUM,通过大型语言模型生成用户生成的文本的摘要,结果显示 LaMSUM 优于现有的提取式摘要方法,同时试图解释语言模型生成的摘要产生的原因。
Jun, 2024
使用抽象文本摘要作为增强方法,着重于在文档级事件检测上弥合浅层模型和深层模型之间的性能差距,使用 RoBERTa-base 和线性 SVM 对分类进行实验,结果表明,文档标题的使用不但能够增强分类性能,还能提高 RoBERTa 的 F1 分数。
May, 2023