利用局部内在维度表征大型语言模型生成的真实性

Feb, 2024

利用局部内在维度表征大型语言模型生成的真实性

Characterizing Truthfulness in Large Language Model Generations with Local Intrinsic Dimension

Fan Yin, Jayanth Srinivasa, Kai-Wei Chang

TL;DR我们研究了如何表征和预测由大型语言模型生成的文本的真实性，这在人类与语言模型之间建立信任的过程中起着关键作用。通过对四个问答数据集进行实验，我们提出的方法通过研究内部激活和量化语言模型激活的本地内在维度（LID）来证明其有效性。此外，我们还研究了语言模型中的内在维度及其与模型层、自回归语言建模和语言模型训练的关系，揭示了内在维度在理解语言模型中的潜力。

Abstract

We study how to characterize and predict the truthfulness of texts generated from large language models (LLMs), which serves as a crucial step in building trust between humans and LLMs. Although several approache

truthfulness large language models calibration internal activations intrinsic dimensions

发现论文，激发创造

LLM 内在状态知道自己在撒谎

介绍了一种基于大型语言模型的 “激活函数值” 的真实性检测方法，进一步提高了文本可靠性和实际应用价值。

Apr, 2023

大型语言模型能否以准确的文字表达其内在不确定性？

大型语言模型通常无法准确表达其内在的不确定性，因此需要更好的对齐以提高其可信度。

May, 2024

真实的几何：大型语言模型在真假数据集表示中的出现线性结构

大语言模型 (LLM) 可以输出令人印象深刻的结果，但也容易输出错误信息。最近的研究开发了一种通过对 LLM 的内部激活进行训练推断 LLM 是否在讲真话的技术。然而，这一研究领域颇具争议，一些作者指出该方法在一些基本方面无法推广，存在概念上的问题。在本研究中，我们精心策划了一组高质量的真 / 假语句数据集，并利用这些数据集详细研究了 LLM 对真实性的表示结构，从三个方面获得证据：1. 展示 LLM 真 / 假语句表示的可视化结果，揭示了明显的线性结构；2. 将在一个数据集上训练的推断器推广到不同数据集的转移实验；3. 通过对 LLM 前向传递进行手术干扰，使其将假语句视为真实或将真实语句视为假。总体而言，我们提出证据表明语言模型线性地表示事实陈述的真实性或虚假性。我们还介绍了一种新技术，质量均值推断法，比其他推断技术具有更好的推广性和更多地与模型输出相关。

Oct, 2023

TruthX: 在真实空间中编辑大型语言模型以减轻幻觉

TruthX 通过编辑语言模型内部表达的真实空间，有效提高了 13 个先进语言模型在 TruthfulQA 基准测试上的真实性表现，平均提升了 20%。进一步分析表明，TruthX 获取的真实空间在控制语言模型产生真实或幻觉性回答中发挥了关键作用。

Feb, 2024

揭示 LLMs：时间知识图中潜在表示的演变

通过对 Large Language Models（LLMs）的实证分析，本文提出了一种新的端到端框架，能够解码 LLMs 中隐藏的事实知识，并使用时间性知识图表达其在各层中的演化，以实现对 LLMs 的机理解释。通过局部和全局的解释性分析，揭示了 LLMs 中存在的潜在错误和事实知识的演化模式，从而为 LLMs 的机理解释迈出了一步。

Apr, 2024

追踪信誉动态：重新审视大型语言模型的预训练时期

通过对大型语言模型的早期预训练进行线性探测和互信息探测，本文揭示了预训练中大型语言模型在可靠性、隐私、有害性、公平性和稳定性等方面的潜力，为揭示预训练中的可信性建模进行了初步探索。

Feb, 2024

走向可信的语言模型：大型语言模型信息质量的研究

大型语言模型产生信息速度快，但信息质量不可信，由于预训练中的不可靠和有偏见的标记化导致信息质量下降，进而导致虚构和伪造信息。本文引入了一种新的数学信息质量评估方法，并分析了信息质量挑战和语言模型的可伸缩性规律。

Jan, 2024

通过激活函数的内在维度将正则化和泛化联系起来

本文研究了模型的内在维度对其泛化能力的影响，通过对验证集和训练集的表现进行分析，提出了通用的规则以改善在一个模型内提取特征数据时可能遇到的问题。

Nov, 2022

使用交叉本地内在维度评估 GAN 的质量

本文提出了一种基于 GAN 模型学习的数据空间的内在维度特征来评估 GAN 生成数据能力的方法，同时提出了一种新的评估度量 CrossLID，并通过在 4 个基准图像数据集上的实验表明，与其他现有的评价指标相比，CrossLID 更加敏锐，并且可以用于改善 GAN 的生成质量。

May, 2019

TrustLLM：大型语言模型的可信性

介绍了 TrustLLM，这是一个关于 LLM（大型语言模型）信任度的综合研究，包括不同维度的信任度原则、建立的基准、评估和分析主流 LLM 的信任度，以及对开放挑战和未来方向的讨论。

Jan, 2024