断时而止：文本生成中的语义漂移研究

Apr, 2024

断时而止：文本生成中的语义漂移研究

Know When To Stop: A Study of Semantic Drift in Text Generation

Ava Spataru, Eric Hambro, Elena Voita, Nicola Cancedda

TL;DR现代 LLMs 生成正确事实后逐渐生成错误事实，因此我们提出了语义漂移评分并通过早期停止方法和语义相似性对信息数量和事实准确性进行平衡，从而产生更可靠的长篇文本生成。

Abstract

In this work, we explicitly show that modern llms tend to generate correct facts first, then "drift away" and generate incorrect facts later: this was occasionally observed but never properly measured. We develop a semantic drift score that measures the degree of separation between cor

llms semantic drift score early stopping methods semantic similarity long-form text generation

发现论文，激发创造

Facts2Story：通过关键事实控制文本生成

该研究提出了一个基于自然语言的控制生成任务，可将一系列事实扩展为更长的叙述，并通过引入人类评估指标和大型训练数据集的方法评估了三种方法，证明了自回归的单向语言模型如 GPT2 的生成流畅度更好，但很难遵循所请求的事实，提出了一个基于计划和填空模型的解决方案（使用精细调整的 XLNet），其生成流畅度有竞争力，同时遵循所请求的内容。

Dec, 2020

通过动态知识选择优化文本生成的事实准确性

DKGen 将文本生成过程划分为迭代过程，通过动态选择相关性高的参考段落，消除与先前生成的文本和查询无关的引用，从而增强了它正确使用外部知识的能力。实验结果表明，DKGen 优于所有基准模型。

Aug, 2023

评估生成文本的事实准确性

该研究提出了一种基于模型的度量标准，用于评估生成的文本的事实准确性，并引入了一个新的基于维基百科和维基数据的大规模数据集来训练关系分类器和端到端事实提取模型。通过在维基百科文本摘要任务中分析多个模型的准确性并进行人类评估研究，论文展示了这些方法相对于 ROUGE 和其他无模型变量的方法的功效。

May, 2019

针对事实性的语言模型微调

通过利用外部知识库的一致性或大模型的置信度，以及直接优化算法，我们在不需要人工标注的情况下，对语言模型进行微调，明显提高了生成候选项的正确性，并比对准确性进行了目标定向的 RLHF 和解码策略有显著改善。

Nov, 2023

增强事实性的语言模型用于开放式文本生成

本研究针对大规模预训练的语言模型，设计测试集和度量标准以提高生成文本的事实准确性，提出了基于主题前缀和句子补全的事实增强训练方法，并提出了更适合提高准确性的采样算法。

Jun, 2022

自动基于事实的句子修改

本文提出了使用两阶段方法来重写包含大量文本的在线百科全书，通过识别和去除矛盾组件，并使用一种新颖的双编码器序列到序列模型进行扩展，以生成一致性更新的句子。实验结果表明，该方法成功地生成了新的索赔的更新语句，并通过增加重新编写的句子生成合成数据，从而成功地增加了 FEVER 事实检查培训数据集的相对误差降低了 13%。

Sep, 2019

FActScore: 长篇文字生成中细粒度事实准确性评估

本文介绍了一种评估生成模型生成的长篇文本真实性的新方法 FActScore，其中将生成的文本分解为一系列原子事实，并计算可靠知识来源支持的原子事实的百分比，从而解决了因生成的含有相关与不相关信息的问题难以进行二元评估的问题；同时，提出了一种自动模型，可以使用检索和强语言模型来估计 FActScore，最终发现 ChatGPT 只有 58% 的精度。

May, 2023

合并事实，创造谬误：评估长篇生成中聚合事实声明的矛盾性质

大型语言模型的长篇生成包含真实和非真实信息，评估真实性变得困难。我们显示了语言模型生成的段落可以包含可验证的事实，但由于实体的歧义性，将这些事实组合形成非真实段落。为了解决这个问题，我们提出了一个增强指标 D-FActScore，特别针对具有歧义实体的内容进行评估。我们发现，D-FActScore 能够比 FActScore 更好地评估具有歧义实体的段落的真实性。我们还发现四个广泛使用的开源语言模型倾向于将不同实体的信息混合以形成非真实段落。

Feb, 2024

依存层面蕴涵在生成中的事实性评估

本文提出了一种新的蕴含形式，即在依赖弧的级别上对其进行分解，以便更好地检测文本生成模型中的事实不一致性。实验证明，基于依赖弧的蕴含模型可以更好地识别重新表述和摘要中的事实不一致性，并在定位错误部分方面具有优势。

Oct, 2020

通过事实一致性模型学习生成带有引文的答案

提出了一种利用事实一致性模型进行弱监督微调的方法，通过在生成的文本中添加引用并使用经过过滤的引文数据进行监督微调，以提高生成的内容的可验证性，并在 ALCE few-shot 引文基准上展示了超过上下文学习、纯监督微调和最先进方法的平均提高，同时在领域转移设置中表明所得到的引文生成能力在未见过的数据集上具有稳健性，并且在基线对比中具有最低的事实错误率。

Jun, 2024