Oct, 2024

长语境语言建模中困惑度的缺陷

TL;DR本研究针对现有困惑度评估指标在长语境输入时的不可靠性进行了深入分析,发现该指标忽略了对理解长语境至关重要的关键词。为解决这一问题,提出了新的评估指标LongPPL,并引入LongCE损失函数,以提升模型对长语境的理解能力,实验结果显示这些方法在不同基准测试中表现显著优于传统困惑度。