利用多源新闻摘要塑造政治话语
本文回顾了近期基于深度学习的多文档摘要模型,提出了新的分类方法以及对这个领域的现状进行了综合总结,并且强调了现有文献中很少讨论的各种目标函数之间的区别,最后对未来发展方向提出了几个建议。
Nov, 2020
本文介绍了首个大规模多文档新闻数据集 Multi-News,并提出一个将传统提取式摘要模型与标准单文档摘要模型结合的端到端模型,取得了有竞争力的结果。我们在 Multi-News 上比较了几种方法,并希望我们的数据和代码能促进多文档摘要领域的进展。
Jun, 2019
在多篇文档新闻摘要研究中,以往研究通常集中于整合各个来源都同意的信息。然而,据我们所知,以往尚未研究过涉及同一事件的多篇文章中分散的多样信息的摘要。后者为摘要模型提出了一组不同的挑战。在本文中,我们提出了一个新任务,即摘要涉及同一事件的多篇新闻文章中的多样信息。为了完成这项任务,我们确定了一个用于识别多样信息的数据收集模式,并创建了一个名为 DiverseSumm 的数据集。该数据集包含 245 个新闻故事,每个故事包括 10 篇新闻文章,并配有人工验证的参考摘要。此外,我们进行了全面的分析,以确定基于大型语言模型(LLM)的度量标准在评估摘要的全面性和忠实度时存在的位置和冗长偏差,以及它们与人工评估的相关性。我们应用我们的发现来研究 LLMs 如何通过分析 LLMs 能够识别哪种类型的多样信息来摘要多篇新闻文章。我们的分析表明,尽管 LLMs 在单篇文档摘要方面具有非凡的能力,但对于他们来说,所提出的任务仍然是一个复杂的挑战,主要是由于他们的覆盖范围有限,GPT-4 只能够平均覆盖不到 40% 的多样信息。
Sep, 2023
开发了一种基于抽象的总结框架,适用于多个异构文档,该框架独立于标记数据。 与现有的多文件总结方法不同,我们的框架处理讲述不同故事的文档,而不是同一主题的文档。 最后,我们基于 CNN / Daily Mail 和 NewsRoom 数据集构建了总共十二个数据集变体,其中每个文档组都包含大量且多样化的文档,以评估我们的模型与其他基线系统的性能。 我们的实验表明,我们的框架在这种更通用的情况下胜过了现有的最先进方法。
May, 2022
本文介绍一种用于评估多文档摘要生成模型及数据集中数据分散程度的自动化度量方法,并检验几个流行的多文档摘要数据集,结果表明某些数据集没有利用多文档信息,提出应用该度量方法评估数据集和模型的性能。
Oct, 2022
自动摘要是降低文本文档长度的过程,以生成概述,保留原始文档的最重要的要点。我们通过推荐图像和生成包含关联和情感的意见摘要,研究了两个问题。我们使用概率模型和词相似性启发式方法生成图像标题和提取关键短语,并借助相关反馈机制重新排序这些关键短语。我们使用 Rank Aggregation 和相关反馈方法来改进图像检索,同时我们还提出一组子模复杂函数用于意见摘要,以平衡压缩需求和情感检测需求,生成和文档情感和摘要情感之间有良好相关性且 ROUGE 得分优秀的摘要。我们还比较了所提出的子模复杂函数的性能。
May, 2024
本文提出了一种摘要框架,通过将目标的所有评论压缩为多个密集向量以代替传统的前置筛选步骤,从而最大化地保留所有信息,进而生成更具信息量的摘要,并且采用零样本技术,能够有效地生成根据用户需求定制的摘要,实验结果表明了该模型在 Rotten Tomatoes 数据集上的优越性能。
Sep, 2019