捕捉具有激活的 LLM 任务漂移

Jun, 2024

Are you still on track!? Catching LLM Task Drift with Activations

Sahar Abdelnabi, Aideen Fay, Giovanni Cherubin, Ahmed Salem, Mario Fritz...

TL;DR通过扫描和分析语言模型的激活状态，我们提出了两种探测方法，发现仅使用线性分类器即可在分布外测试集上准确检测出指令漂移，且其泛化能力出乎意料地适用于未知任务领域，如提示注入、越狱和恶意指令。我们的方法无需对语言模型进行任何修改或生成文本，最大程度地实现了可部署性和成本效益，并避免了对不可靠模型输出的依赖。为了促进基于激活状态的任务检查、解码和可解释性的进一步研究，我们将发布我们的大规模任务跟踪工具包，其中包括超过 50 万个实例的数据集，四种 SoTA 语言模型的表示以及检查工具。

Abstract

large language models (LLMs) are routinely used in retrieval-augmented applications to orchestrate tasks and process inputs from users and other sources. These inputs, even in a single LLM interaction, can come from a variety of sources, of varying trustworthiness and provenance. This

large language models prompt injection attacks instruction drift probing methods activation-based task inspection

发现论文，激发创造

后门激活攻击：使用激活引导实施对大型语言模型的攻击以达到安全对齐

通过向大型语言模型注入木马激活向量，我们提出了一种名为后门激活攻击的新型攻击框架，使得模型在推理时可以被激活并朝着攻击者所期望的行为方向进行操纵，该方法在主要的对齐任务上表现出高度的有效性，并且几乎不会给攻击效率增加任何开销，同时讨论了对抗此类激活攻击的潜在对策。

Nov, 2023

LLM 对于面向任务的对话系统是否足够？

本研究旨在研究大型语言模型在多轮任务和与外部数据库交互方面的能力，发现在显式信仰状态跟踪方面，它们表现不如专门的任务特定模型，但是如果给出正确的插槽值，它们表现出将对话引导到成功结局的能力，并且在有真实信仰状态分布或域内示例的情况下，这种能力得到了改进。

Apr, 2023

您是否被追踪？了解 LLMs 的零射线轨迹追踪能力！

本研究介绍了 LLMTrack 模型，展示了如何利用大型语言模型（LLMs）通过采用一种独特的单提示技术，结合角色扮演和逐步思考方法，处理未经处理的惯性测量单元（IMU）数据，实现零通道轨迹识别。通过对真实世界数据集进行评估，我们发现在室内和室外场景中，LLMTrack 不仅达到了传统机器学习方法以及当代深度学习模型所设定的性能基准，甚至超过了这些基准，而且无需在特定数据集上进行训练。我们的研究结果表明，在经过精心设计的提示的指导下，LLMs 可以利用其丰富的知识库，以极高的效率分析原始传感器数据。

Mar, 2024

采用剩余流激活分析对大型语言模型进行防御

借助大型语言模型（LLMs），我们提出了一种创新的防御策略，通过对 LLM 的 Transformer 层之间的残余激活分析，实现对恶意输入的攻击提示分类的高准确性，同时集成安全微调技术提升模型的鲁棒性和提高检测和缓解对抗性输入的能力。

Jun, 2024

LLM 激活中的幻觉弱监督检测

我们提出了一种审计方法，用于确定大型语言模型中是否编码了诸如幻觉等模式，并可向下游任务传播。我们引入了一种弱监督的审计技术，使用子集扫描方法来检测预训练模型中 LLM 激活的异常模式。重要的是，我们的方法不需要先验知识来了解模式的类型，而是依赖于在测试期间不含异常的参考数据集。此外，我们的方法还可以确定编码这些模式的关键节点，这可能为细调特定子网络以减轻偏见提供关键见解。我们引入了两种新的扫描方法来处理可能偏离预期分布的异常句子中的 LLM 激活。我们的结果证实了 BERT 在编码幻觉方面内部能力有限，而 OPT 似乎能够在内部编码幻觉信息。重要的是，我们的扫描方法在没有事先暴露于虚假陈述的情况下，表现出与完全监督的离群样本分类器相当的性能。

Dec, 2023

利用大型语言模型进行生成式语音识别误差校正

使用大型语言模型进行 ASR 后处理，通过指令提示和上下文学习改进错误纠正，与领域精调模型相比，显示了语言模型的泛化能力。

Sep, 2023

LLM 潜力评估对飞行轨迹重建分析的探索性评估

大型语言模型在航空领域具有重塑飞行轨迹的潜力，该研究利用 LLaMA 2 模型探索了利用自动相关监视广播（ADS-B）数据重建飞行轨迹的可能性，并发现模型在过滤噪声和估计线性和曲线飞行轨迹方面的能力，但也揭示了处理较长数据序列的挑战，这可能归因于 LLM 模型的令牌长度限制。该研究的结果凸显了 LLM 在飞行轨迹重建方面的潜力，并为航空和交通领域的更广泛应用开辟了新途径。

Jan, 2024

大规模语言模型应用的词汇攻击

使用来自攻击模型的嵌入和优化过程插入模型词汇，我们证明了我们的方法可以成功劫持两个流行的开源大语言模型 Llama2 和 Flan-T5，并显示了我们的方法具有不易被察觉的特点，且仅需插入单个词汇即可进行攻击，我们还证明可以使用不同于目标模型的模型进行攻击。

Apr, 2024

超越性能：量化和减轻 LLMs 中的标签偏差

通过评估不同方法对模型预测中的标签偏倚进行量化研究，我们提出了一种专门用于少样本提示的新型标签偏倚校准方法，其在提高性能和减轻标签偏倚方面优于最近的校准方法。我们的结果强调大型语言模型中标签偏倚对其可靠性的影响。

May, 2024

LLM 内在状态知道自己在撒谎

介绍了一种基于大型语言模型的 “激活函数值” 的真实性检测方法，进一步提高了文本可靠性和实际应用价值。

Apr, 2023