May, 2024

能否通过困惑度反映大型语言模型对长篇文本理解的能力?

TL;DR最近的研究表明,大语言模型在处理极长文本方面具有潜力。然而,通过困惑度作为评估指标来评估大语言模型在长文本理解能力方面存在问题,困惑度仅能反映模型对局部信息的建模能力而无法捕捉长距离依赖,因此,仅通过困惑度证明模型可以处理长文本是不合适的。在评估模型的长文本能力时,应当更加注意困惑度的局限性并避免过度依赖。