拥抱分歧以获得更丰富的见解：一个多文档摘要基准和一个从新闻文章中概括多样信息的案例研究

Sep, 2023

拥抱分歧以获得更丰富的见解：一个多文档摘要基准和一个从新闻文章中概括多样信息的案例研究

Embrace Divergence for Richer Insights: A Multi-document Summarization Benchmark and a Case Study on Summarizing Diverse Information from News Articles

HTML

PDF

Kung-Hsiang Huang, Philippe Laban, Alexander R. Fabbri, Prafulla Kumar Choubey, Shafiq Joty...

TL;DR在多篇文档新闻摘要研究中，以往研究通常集中于整合各个来源都同意的信息。然而，据我们所知，以往尚未研究过涉及同一事件的多篇文章中分散的多样信息的摘要。后者为摘要模型提出了一组不同的挑战。在本文中，我们提出了一个新任务，即摘要涉及同一事件的多篇新闻文章中的多样信息。为了完成这项任务，我们确定了一个用于识别多样信息的数据收集模式，并创建了一个名为DiverseSumm的数据集。该数据集包含245个新闻故事，每个故事包括10篇新闻文章，并配有人工验证的参考摘要。此外，我们进行了全面的分析，以确定基于大型语言模型（LLM）的度量标准在评估摘要的全面性和忠实度时存在的位置和冗长偏差，以及它们与人工评估的相关性。我们应用我们的发现来研究LLMs如何通过分析LLMs能够识别哪种类型的多样信息来摘要多篇新闻文章。我们的分析表明，尽管LLMs在单篇文档摘要方面具有非凡的能力，但对于他们来说，所提出的任务仍然是一个复杂的挑战，主要是由于他们的覆盖范围有限，GPT-4只能够平均覆盖不到40%的多样信息。

Abstract

Previous research in multi-document news summarization has typically concentrated on collating information that all sources agree upon. However, to our knowledge, the summarization of diverse information disperse