ACLMar, 2024

关于细粒度损失截断的好处:一个关于摘要中事实性的案例研究

TL;DR文本摘要和简化是人工智能最常用的应用之一,然而,针对此类任务开发的模型往往容易出现幻觉,这可能是由于在不对齐的数据上进行训练。为了解决这个问题,我们提出了一种有效的方法,即损失截断(Loss Truncation)(Kang and Hashimoto,2020),通过修改标准的对数损失来自适应性地删除训练中的噪声示例。然而,我们发现单独使用损失截断在各种数据集上会产生相当多的幻觉实体。我们研究了真实和非真实示例之间潜在损失的行为,以理解和改进损失截断的性能。我们证明当噪声目标的 NLL 损失不如预期时,损失截断的性能会受到限制,并且发现实体之间的词级 NLL 提供更好的区分真实性的信号。然后我们利用此结果提出了一种细粒度的 NLL 损失和细粒度的数据清洗策略,观察到在某些数据集上幻觉减少的改进。