断时而止:文本生成中的语义漂移研究
该研究提出了一个基于自然语言的控制生成任务,可将一系列事实扩展为更长的叙述,并通过引入人类评估指标和大型训练数据集的方法评估了三种方法,证明了自回归的单向语言模型如 GPT2 的生成流畅度更好,但很难遵循所请求的事实,提出了一个基于计划和填空模型的解决方案(使用精细调整的 XLNet),其生成流畅度有竞争力,同时遵循所请求的内容。
Dec, 2020
DKGen 将文本生成过程划分为迭代过程,通过动态选择相关性高的参考段落,消除与先前生成的文本和查询无关的引用,从而增强了它正确使用外部知识的能力。实验结果表明,DKGen 优于所有基准模型。
Aug, 2023
该研究提出了一种基于模型的度量标准,用于评估生成的文本的事实准确性,并引入了一个新的基于维基百科和维基数据的大规模数据集来训练关系分类器和端到端事实提取模型。通过在维基百科文本摘要任务中分析多个模型的准确性并进行人类评估研究,论文展示了这些方法相对于 ROUGE 和其他无模型变量的方法的功效。
May, 2019
通过利用外部知识库的一致性或大模型的置信度,以及直接优化算法,我们在不需要人工标注的情况下,对语言模型进行微调,明显提高了生成候选项的正确性,并比对准确性进行了目标定向的 RLHF 和解码策略有显著改善。
Nov, 2023
本研究针对大规模预训练的语言模型,设计测试集和度量标准以提高生成文本的事实准确性,提出了基于主题前缀和句子补全的事实增强训练方法,并提出了更适合提高准确性的采样算法。
Jun, 2022
本文提出了使用两阶段方法来重写包含大量文本的在线百科全书,通过识别和去除矛盾组件,并使用一种新颖的双编码器序列到序列模型进行扩展,以生成一致性更新的句子。实验结果表明,该方法成功地生成了新的索赔的更新语句,并通过增加重新编写的句子生成合成数据,从而成功地增加了 FEVER 事实检查培训数据集的相对误差降低了 13%。
Sep, 2019
本文介绍了一种评估生成模型生成的长篇文本真实性的新方法 FActScore,其中将生成的文本分解为一系列原子事实,并计算可靠知识来源支持的原子事实的百分比,从而解决了因生成的含有相关与不相关信息的问题难以进行二元评估的问题;同时,提出了一种自动模型,可以使用检索和强语言模型来估计 FActScore,最终发现 ChatGPT 只有 58% 的精度。
May, 2023
大型语言模型的长篇生成包含真实和非真实信息,评估真实性变得困难。我们显示了语言模型生成的段落可以包含可验证的事实,但由于实体的歧义性,将这些事实组合形成非真实段落。为了解决这个问题,我们提出了一个增强指标 D-FActScore,特别针对具有歧义实体的内容进行评估。我们发现,D-FActScore 能够比 FActScore 更好地评估具有歧义实体的段落的真实性。我们还发现四个广泛使用的开源语言模型倾向于将不同实体的信息混合以形成非真实段落。
Feb, 2024
本文提出了一种新的蕴含形式,即在依赖弧的级别上对其进行分解,以便更好地检测文本生成模型中的事实不一致性。实验证明,基于依赖弧的蕴含模型可以更好地识别重新表述和摘要中的事实不一致性,并在定位错误部分方面具有优势。
Oct, 2020
提出了一种利用事实一致性模型进行弱监督微调的方法,通过在生成的文本中添加引用并使用经过过滤的引文数据进行监督微调,以提高生成的内容的可验证性,并在 ALCE few-shot 引文基准上展示了超过上下文学习、纯监督微调和最先进方法的平均提高,同时在领域转移设置中表明所得到的引文生成能力在未见过的数据集上具有稳健性,并且在基线对比中具有最低的事实错误率。
Jun, 2024