通过离线一致性检查的探头训练实现可转移和高效的非事实内容检测

Apr, 2024

通过离线一致性检查的探头训练实现可转移和高效的非事实内容检测

Transferable and Efficient Non-Factual Content Detection via Probe Training with Offline Consistency Checking

Xiaokang Zhang, Zijun Yao, Jing Zhang, Kaifeng Yun, Jifan Yu...

TL;DR使用 PINOSE 模型进行离线自洽检查有效降低了在线一致性检验的计算负担，并在事实检测和问答基准测试中取得了优于现有方法的结果。

Abstract

Detecting non-factual content is a longstanding goal to increase the trustworthiness of large language models (LLMs) generations. Current factuality probes, trained using humanannotated labels, exhibit limited transferability to out-of-distribution content, while online selfconsistency

发现论文，激发创造

重新评估事实一致性评估

TRUE评测了多个评估度量的实际应用，并推荐大规模NLI及基于生成问答的方法作为模型和度量开发者的起点，以期推动更好的评估方法的进步。

Apr, 2022

WeCheck：基于弱监督学习的强事实一致性检查器

本文提出了一种弱监督框架WeCheck，通过聚合多个资源进行训练，提高了文本生成模型的真实性度量。在多项任务上进行的综合实验表明，WeCheck在TRUE基准测试中的表现优于现有的最先进方法，平均提高了3.4％。

Dec, 2022

SelfCheckGPT: 面向生成式大型语言模型的零资源黑盒幻觉检测

本文提出了一种称为 SelfCheckGPT 的新方法，用于检测生成式大型语言模型中的错误事实，并在不需要外部数据库的情况下使用。该方法基于样本抽样，利用相似的句子包含一致事实的简单概念来判断事实的准确性。我们使用 GPT-3 生成 WikiBio 数据集中的个人传记来验证该方法，证明 SelfCheckGPT 可以检测非事实和事实句子，并按事实性对生成段落进行排序。

Mar, 2023

大型语言模型是否可靠的评判者？一个关于LLM事实性评估能力的研究

本研究旨在探讨大型语言模型作为可靠的评估器，用于评估文本生成模型生成的摘要的事实一致性，并发现其在事实性评分中的局限性。

Nov, 2023

针对事实性的语言模型微调

通过利用外部知识库的一致性或大模型的置信度，以及直接优化算法，我们在不需要人工标注的情况下，对语言模型进行微调，明显提高了生成候选项的正确性，并比对准确性进行了目标定向的RLHF和解码策略有显著改善。

Nov, 2023

Factcheck-GPT: 端到端的细粒度文档级事实检查与纠正LLM输出

该研究介绍了一种针对大型语言模型输出进行事实准确性注释的综合解决方案，包括多阶段的注释方案和注释工具的设计，以识别LLM输出中的可验证性和事实不一致性，并构建了三个层次粒度的开放领域文档级事实性基准。初步实验结果表明，已有工具在识别错误声明方面存在困难，最佳F1=0.53。

Nov, 2023

摘要中事实不一致的识别:向大型语言模型的有效利用迈进

通过零样本策略，本研究提出并评估了三种方式来解决实际的矛盾检测问题，并研究了如何精简高效且功效强大的大型语言模型。实验结果表明，适当设计的范式可以使大型语言模型在无需训练的情况下解决此问题，平均超越强训练基线2.8％。为了进一步提高实用性，我们提出了训练策略，旨在通过高准确性一次对整个摘要进行评分的方式来精简开源大型语言模型，其效果优于较大的零样本大型语言模型，成为一种有效且高效的可即用得分器。

Feb, 2024

隐藏式问题表征揭示大型语言模型内外的非事实性

本研究通过使用轻量级探针从问题的隐藏表示中唤起“语言模型是否知道”的能力，对非真实反应预测（NFP）进行了广泛分析，发现非真实性探针在多个语言模型中采用类似模式，并提出了跨语言模型的有效迁移学习并使用问题对齐策略进行小批量训练以确保其效力。

Jun, 2024

综合解码：通过隐性自洽性提高事实准确性

本研究解决了现有自洽性方法在开放生成任务中适用性有限的问题。提出的综合解码(ID)方法通过构建一组输入并同时处理，隐性地将自洽性纳入解码目标，从而显著提升大型语言模型的事实准确性。实验证明，ID在多个基准测试上均实现了显著提升，显示出其在多次采样下的潜在扩展性。

Oct, 2024

综合解码：通过隐式自一致性提升事实准确性

本研究解决了现有基于自一致性的方法在任务格式上的限制，提出了一种名为综合解码（ID）的新方法。该方法通过构建一组输入，并在解码时聚合各个预测， implicit地将自一致性融入到解码目标中，从而在多种语言模型的事实准确性上实现了一致性提升，尤其在TruthfulQA、Biographies和LongFact基准测试中表现突出。

Oct, 2024