从标准摘要到新任务的拓展:多重信息摘要
本文详细介绍了文本摘要的各种方法,包括提取和抽象两种途径,评估指标、基准数据集与未来的研究展望,并讨论了生成摘要的不同评估方法与相关研究中可能出现的挑战和研究机遇。
Mar, 2022
多文档摘要是自动生成与同一主题相关的多个文档的简洁摘要的过程。本文提出了一个机器学习模型,从多个新闻文档中生成主题的简洁摘要,并设计成能够公正地从各个方面均等采样输入信息,即使大多数新闻来源倾向于一方。
Dec, 2023
本文探讨了利用 Transformer-based 系统概括多领域科学研究论文的问题,并设计了两种不同类型的概述手段,即 LaySumm 和 LongSumm,使用 ROUGE 指标有效评估了本文系统的优越性。
Jan, 2021
自动摘要是降低文本文档长度的过程,以生成概述,保留原始文档的最重要的要点。我们通过推荐图像和生成包含关联和情感的意见摘要,研究了两个问题。我们使用概率模型和词相似性启发式方法生成图像标题和提取关键短语,并借助相关反馈机制重新排序这些关键短语。我们使用 Rank Aggregation 和相关反馈方法来改进图像检索,同时我们还提出一组子模复杂函数用于意见摘要,以平衡压缩需求和情感检测需求,生成和文档情感和摘要情感之间有良好相关性且 ROUGE 得分优秀的摘要。我们还比较了所提出的子模复杂函数的性能。
May, 2024
自动摘要是计算机缩短文本数据的过程,以创建一个表示原始文本中最重要的信息的子集 (摘要)。现有的摘要方法大致可以分为两类:抽取式和生成式,前者会从源文档中显式选择文本片段 (单词,短语,句子等) ,而后者则会生成新的文本片段来传达源文件中最突出的概念。
Apr, 2022
在多篇文档新闻摘要研究中,以往研究通常集中于整合各个来源都同意的信息。然而,据我们所知,以往尚未研究过涉及同一事件的多篇文章中分散的多样信息的摘要。后者为摘要模型提出了一组不同的挑战。在本文中,我们提出了一个新任务,即摘要涉及同一事件的多篇新闻文章中的多样信息。为了完成这项任务,我们确定了一个用于识别多样信息的数据收集模式,并创建了一个名为 DiverseSumm 的数据集。该数据集包含 245 个新闻故事,每个故事包括 10 篇新闻文章,并配有人工验证的参考摘要。此外,我们进行了全面的分析,以确定基于大型语言模型(LLM)的度量标准在评估摘要的全面性和忠实度时存在的位置和冗长偏差,以及它们与人工评估的相关性。我们应用我们的发现来研究 LLMs 如何通过分析 LLMs 能够识别哪种类型的多样信息来摘要多篇新闻文章。我们的分析表明,尽管 LLMs 在单篇文档摘要方面具有非凡的能力,但对于他们来说,所提出的任务仍然是一个复杂的挑战,主要是由于他们的覆盖范围有限,GPT-4 只能够平均覆盖不到 40% 的多样信息。
Sep, 2023