Feb, 2024

利用局部内在维度表征大型语言模型生成的真实性

TL;DR我们研究了如何表征和预测由大型语言模型生成的文本的真实性,这在人类与语言模型之间建立信任的过程中起着关键作用。通过对四个问答数据集进行实验,我们提出的方法通过研究内部激活和量化语言模型激活的本地内在维度(LID)来证明其有效性。此外,我们还研究了语言模型中的内在维度及其与模型层、自回归语言建模和语言模型训练的关系,揭示了内在维度在理解语言模型中的潜力。