Mar, 2024

FENICE: 基于自然语言推理和主张提取的摘要真实性评估

TL;DR最近在文本摘要方面的最新进展,尤其是随着大型语言模型(LLM)的出现,其表现出色。然而,存在一个明显的挑战,即大量自动生成的摘要存在事实不一致的问题,如幻觉。针对这个问题,出现了各种检验摘要一致性的方法。然而,这些新引入的度量指标都存在一些限制,包括解释性的缺乏、关注短文档摘要(例如新闻文章)以及计算上的不便,尤其是基于 LLM 的度量。为了解决这些缺点,我们提出了基于自然语言推理和主张提取(FENICE)的事实性评估摘要度量。FENICE 利用了源文件中的信息和从摘要中提取的一组原子事实(称为主张)之间的一个基于 NLI 的对齐。我们的度量在事实性评估的事实上设立了一个新的标杆,即默认标准 AGGREFACT。此外,我们通过进行长篇摘要的人工注释过程,将我们的评估扩展到了更具挑战性的环境中。