Dec, 2023

LLM 激活中的幻觉弱监督检测

TL;DR我们提出了一种审计方法,用于确定大型语言模型中是否编码了诸如幻觉等模式,并可向下游任务传播。我们引入了一种弱监督的审计技术,使用子集扫描方法来检测预训练模型中 LLM 激活的异常模式。重要的是,我们的方法不需要先验知识来了解模式的类型,而是依赖于在测试期间不含异常的参考数据集。此外,我们的方法还可以确定编码这些模式的关键节点,这可能为细调特定子网络以减轻偏见提供关键见解。我们引入了两种新的扫描方法来处理可能偏离预期分布的异常句子中的 LLM 激活。我们的结果证实了 BERT 在编码幻觉方面内部能力有限,而 OPT 似乎能够在内部编码幻觉信息。重要的是,我们的扫描方法在没有事先暴露于虚假陈述的情况下,表现出与完全监督的离群样本分类器相当的性能。