关于细粒度损失截断的好处：一个关于摘要中事实性的案例研究

ACLMar, 2024

关于细粒度损失截断的好处：一个关于摘要中事实性的案例研究

On the Benefits of Fine-Grained Loss Truncation: A Case Study on Factuality in Summarization

Lorenzo Jaime Yu Flores, Arman Cohan

TL;DR文本摘要和简化是人工智能最常用的应用之一，然而，针对此类任务开发的模型往往容易出现幻觉，这可能是由于在不对齐的数据上进行训练。为了解决这个问题，我们提出了一种有效的方法，即损失截断（Loss Truncation）（Kang and Hashimoto，2020），通过修改标准的对数损失来自适应性地删除训练中的噪声示例。然而，我们发现单独使用损失截断在各种数据集上会产生相当多的幻觉实体。我们研究了真实和非真实示例之间潜在损失的行为，以理解和改进损失截断的性能。我们证明当噪声目标的 NLL 损失不如预期时，损失截断的性能会受到限制，并且发现实体之间的词级 NLL 提供更好的区分真实性的信号。然后我们利用此结果提出了一种细粒度的 NLL 损失和细粒度的数据清洗策略，观察到在某些数据集上幻觉减少的改进。

Abstract

text summarization and simplification are among the most widely used applications of AI. However, models developed for such tasks are often prone to →

text summarization simplification hallucination loss truncation word-level nll

发现论文，激发创造

通过损失截断改善自然语言生成

本文提出了一种利用模型与参考之间的可区分性来处理无效参考的算法，称为损失截断。与常用的 log 损失相比，该方法可以更好地应对嘈杂和无效的参考，并取得了更好的实验效果，生成的样本拥有超越基线并与人类参考相匹配的事实准确性评分。

Apr, 2020

减轻大规模语言模型的虚构问题的忠实微调

大型语言模型（LLMs）在各种自然语言处理任务上表现出色。然而，它们容易生成流畅但不真实的回复，即 “幻觉”。幻觉可能导致错误信息的传播，并在关键应用中造成伤害。减少幻觉具有挑战性，因为它们来源于嘈杂的数据、模型自信心过度、缺乏知识和生成过程等因素。最近的研究通过表示编辑和解码算法来解决这个问题，实现减少幻觉但不进行重大结构更改或重新训练。然而，这些方法要么隐式地在潜在空间中编辑 LLMs 的行为，要么在解码过程中抑制输出不忠实的结果的倾向，而不是显式地对幻觉进行建模。在本文中，我们介绍了忠实微调（F2），这是一种通过精心设计的损失函数在微调过程中显式地对忠实回答建模的新方法。我们在常用数据集上进行了广泛的实验，并证明 F2 相对于基线模型能够取得显著改进。

Jun, 2024

自然语言生成数据集中数据错误的追踪和清除

该研究提出了一种框架，利用基于对比度的算法识别和清除训练数据中的一些低质量样本，从而实现减少自然语言生成任务中的幻觉和不忠实输出的目的。

Dec, 2022

针对事实性的语言模型微调

通过利用外部知识库的一致性或大模型的置信度，以及直接优化算法，我们在不需要人工标注的情况下，对语言模型进行微调，明显提高了生成候选项的正确性，并比对准确性进行了目标定向的 RLHF 和解码策略有显著改善。

Nov, 2023

论抽象化摘要中的忠实度与客观性

分析了神经文本生成模型在抽象文档摘要生成方面的局限性，并发现这些模型非常容易产生虚假内容。人类评估显示，预训练模型生成的摘要不仅在原始度量标准（即 ROUGE）方面更好，而且在生成忠实和真实摘要方面也更好，文本蕴含度量更好地相关于忠实度，有可能成为自动评估度量标准以及训练和解码标准的前景。

May, 2020

基于数据的方法生成忠实和高质量的患者总结（利用大型语言模型）

使用大型语言模型生成基于医生笔记的患者摘要，研究训练数据对生成摘要的准确性和质量的影响，使用对幻觉的严格标注协议，评估基于 Llama 2 和 GPT-4 的生成摘要的幻觉现象及相关信息。

Feb, 2024

主题摘要中的细粒度事实注释及建模

研究表明，目前预训练的抽象摘要系统在性能上已经取得了可信的表现，但其输出的摘要常常与输入不符合并存在事实错误。作者探讨了综合和人工标注数据，用于训练模型来识别摘要中的事实错误，并研究了单词、依赖和句子级别的事实性。通过对多个数据集的实验观察，作者认为人工标注的细粒度数据提供了更有效的训练信号，并证明了他们的最佳事实性检测模型能够识别训练数据中的非事实标记，从而使得训练更为准确的抽象摘要模型成为可能。

Apr, 2021

临床摘要中事实对齐的合成模仿编辑反馈

使用 ChatGPT 生成高质量反馈数据，从而改善临床笔记概括任务中的事实一致性，并展示了 GPT 编辑在人类对齐中的潜在用途，特别是从事实角度。

Oct, 2023

长文本摘要中的幻觉减少

减少幻觉的输出或概括长文本文档摘要的幻觉是本论文的目标。通过在 Longformer Encoder-Decoder (LED) 模型的微调中结合数据过滤和联合实体与摘要生成（JAENS）技术，我们使用 PubMed 数据集来改善产生的摘要质量，并测量了实体级别的事实一致性。实验结果显示，经过微调的 LED 模型在生成论文摘要方面表现良好，基于一些预处理步骤的数据过滤技术能够减少生成摘要中的实体级别幻觉，从而提高了事实一致性指标。

Sep, 2023

文本摘要模型的训练动态

本文分析生成模型的训练动态，特别是聚焦于总结的方面，并研究了不同阶段的训练过程中模型学到的东西，通过简单的训练修正可以实现不同目标，比如提高事实性和提高抽象程度。

Oct, 2021