关注满足：论语言模型的事实错误的约束满足视角

Sep, 2023

关注满足：论语言模型的事实错误的约束满足视角

Attention Satisfies: A Constraint-Satisfaction Lens on Factual Errors of Language Models

Mert Yuksekgonul, Varun Chandrasekaran, Erik Jones, Suriya Gunasekar, Ranjita Naik...

TL;DR使用 Transformer-based 大型语言模型，研究当其生成错误的文本时的内部行为；将事实查询建模为约束满足问题，并使用该框架来研究模型与事实约束的内部交互；通过研究包含超过 40,000 个提示的 11 个数据集，在各种规模的 Llama-2 系列（7B、13B、70B）上研究预测事实错误的任务；提出了一种可以预测约束满足和事实错误、并且可以早期发现错误的 self-attention 模式探查方法 SAT Probe；这些方法和发现表明，利用对大型语言模型中事实性的机械理解可以提高可靠性。

Abstract

We investigate the internal behavior of Transformer-based Large Language Models (LLMs) when they generate factually incorrect text. We propose modeling factual queries as constraint satisfaction problems and use

transformer-based large language models factually incorrect text constraint satisfaction problems factual constraints sat probe

发现论文，激发创造

针对事实性的语言模型微调

通过利用外部知识库的一致性或大模型的置信度，以及直接优化算法，我们在不需要人工标注的情况下，对语言模型进行微调，明显提高了生成候选项的正确性，并比对准确性进行了目标定向的 RLHF 和解码策略有显著改善。

Nov, 2023

自我对齐以提高事实准确性：通过自我评估减少 LLMs 中的幻觉

探索使用自我评估和自我知识调整的自对齐方法，以增强大语言模型的事实准确性。

Feb, 2024

使用大型语言模型评估摘要的事实一致性

本研究探索采用大型语言模型 (DLM) 来评估摘要的事实一致性，并通过对 GPT 模型系列和 Flan-T5 等不同类型的 DLM 进行分析，以及对多种提示方法进行研究，最终证明了直接针对 DLM 的提示方法在各项测试中均优于当前最先进的摘要事实性系统。

May, 2023

大型语言模型中的事实性调查：知识、检索与领域特定性

该研究总结了大型语言模型中的事实性问题，讨论了其不准确性对不同领域应用的潜在影响和挑战，分析了导致事实性错误的主要原因，介绍了评估模型事实性的方法和策略，提供了研究人员指南以增强大型语言模型的事实可靠性。

Oct, 2023

2024 年大型语言模型的事实性

大语言模型（LLMs），尤其是适用于聊天的指导模型，已成为我们日常生活中的一部分，通过在一个地方提供简单的答案，使人们摆脱了从多个来源搜索、提取和整合信息的过程。然而，很多情况下，LLM 的回答是错误的，这限制了它们在实际场景中的适用性。因此，对评估和改进 LLM 的事实准确性的研究近年来引起了很多关注。在这项调查中，我们以批判性的角度分析现有的工作，旨在确定主要的挑战及其关联的原因，指出改进 LLM 的潜在解决方案，分析开放式文本生成的自动事实准确性评估的障碍，并展望未来研究的方向。

Feb, 2024

FLAME: 大型语言模型的事实感知对齐

通过对 pre-trained large language models 进行 factual-aware SFT 和 factual-aware RL 的直接优化，使其在保持指令遵循能力的同时，输出更多真实的回应。

May, 2024

具备符合式真实性保证的语言模型

通过连接语言建模和符合预测，我们提出了一种名为符合真实性的框架，可以确保语言模型输出的高概率正确性保证。我们观察到语言模型输出的正确性等同于一个不确定性量化问题，其中不确定性集合被定义为语言模型输出的蕴含集合。利用这种连接，我们展示了在语言模型中的符合预测对应于一种回退算法，通过逐步使语言模型输出不太具体（并扩大相关的不确定性集合）以提供高概率的正确性保证。这种方法适用于任何黑盒语言模型，并且只需要很少的人工标注样本。我们对我们的方法在闭卷问答（FActScore，NaturalQuestions）和推理任务（MATH）上进行评估，结果表明我们的方法可以在保留大部分语言模型原始输出的同时提供 80-90% 的正确性保证。

Feb, 2024

FELM: 大型语言模型真实性评估基准

评估大型语言模型产生的文本的真实性是一个新兴而关键的研究领域，目的是提醒用户潜在错误并引导更可靠的语言模型的开发。为了解决这个问题，我们介绍了一个名为 felm 的大型语言模型真实性评估基准，该基准收集了来自语言模型的响应并以细化的方式注释了真实性标签。通过使用文本片段进行注释，我们可以帮助定位具体的事实错误。然而，我们的实验证实，当前的语言模型在忠实地检测事实错误方面还远远不够满意。

Oct, 2023

揭开塞壬之歌：迈向可靠的事实冲突幻觉检测

通过 FactCHD 基准测试，评估 Large Language Models 中事实性的判断，在检测虚假信息方面取得了有效成果，且当前方法在准确检测事实错误方面存在不足。

Oct, 2023

检测不需要事实判断的响应生成

大型语言模型在对话中实现吸引力和真实性的研究，通过众包创建了一个对话数据集，用于分类任务，并且最高分类准确率达到了 88%。

Jun, 2024