通过离线一致性检查的探头训练实现可转移和高效的非事实内容检测
本文提出了一种弱监督框架WeCheck,通过聚合多个资源进行训练,提高了文本生成模型的真实性度量。在多项任务上进行的综合实验表明,WeCheck在TRUE基准测试中的表现优于现有的最先进方法,平均提高了3.4%。
Dec, 2022
本文提出了一种称为 SelfCheckGPT 的新方法,用于检测生成式大型语言模型中的错误事实,并在不需要外部数据库的情况下使用。该方法基于样本抽样,利用相似的句子包含一致事实的简单概念来判断事实的准确性。我们使用 GPT-3 生成 WikiBio 数据集中的个人传记来验证该方法,证明 SelfCheckGPT 可以检测非事实和事实句子,并按事实性对生成段落进行排序。
Mar, 2023
本研究旨在探讨大型语言模型作为可靠的评估器,用于评估文本生成模型生成的摘要的事实一致性,并发现其在事实性评分中的局限性。
Nov, 2023
通过利用外部知识库的一致性或大模型的置信度,以及直接优化算法,我们在不需要人工标注的情况下,对语言模型进行微调,明显提高了生成候选项的正确性,并比对准确性进行了目标定向的RLHF和解码策略有显著改善。
Nov, 2023
该研究介绍了一种针对大型语言模型输出进行事实准确性注释的综合解决方案,包括多阶段的注释方案和注释工具的设计,以识别LLM输出中的可验证性和事实不一致性,并构建了三个层次粒度的开放领域文档级事实性基准。初步实验结果表明,已有工具在识别错误声明方面存在困难,最佳F1=0.53。
Nov, 2023
通过零样本策略,本研究提出并评估了三种方式来解决实际的矛盾检测问题,并研究了如何精简高效且功效强大的大型语言模型。实验结果表明,适当设计的范式可以使大型语言模型在无需训练的情况下解决此问题,平均超越强训练基线2.8%。为了进一步提高实用性,我们提出了训练策略,旨在通过高准确性一次对整个摘要进行评分的方式来精简开源大型语言模型,其效果优于较大的零样本大型语言模型,成为一种有效且高效的可即用得分器。
Feb, 2024
本研究通过使用轻量级探针从问题的隐藏表示中唤起“语言模型是否知道”的能力,对非真实反应预测(NFP)进行了广泛分析,发现非真实性探针在多个语言模型中采用类似模式,并提出了跨语言模型的有效迁移学习并使用问题对齐策略进行小批量训练以确保其效力。
Jun, 2024
本研究解决了现有自洽性方法在开放生成任务中适用性有限的问题。提出的综合解码(ID)方法通过构建一组输入并同时处理,隐性地将自洽性纳入解码目标,从而显著提升大型语言模型的事实准确性。实验证明,ID在多个基准测试上均实现了显著提升,显示出其在多次采样下的潜在扩展性。
Oct, 2024
本研究解决了现有基于自一致性的方法在任务格式上的限制,提出了一种名为综合解码(ID)的新方法。该方法通过构建一组输入,并在解码时聚合各个预测, implicit地将自一致性融入到解码目标中,从而在多种语言模型的事实准确性上实现了一致性提升,尤其在TruthfulQA、Biographies和LongFact基准测试中表现突出。
Oct, 2024