激活缩放用于引导和解释语言模型

Oct, 2024

激活缩放用于引导和解释语言模型

Activation Scaling for Steering and Interpreting Language Models

Niklas Stoehr, Kevin Du, Vésteinn Snæbjarnarson, Robert West, Ryan Cotterell...

TL;DR本研究解决了如何通过乘以相关激活向量的标量，干预语言模型的预测以从不正确的"法国"转变为正确的"意大利"的问题。提出的激活缩放方法在实现高效、可解释的干预时，能够有效翻转预测并保持其他词的稳定性，其最显著发现是该方法在合成任务上展现出与传统引导向量相媲美的效果，同时具备更好的最小性，使得模型组件可解释化。

Abstract

Given the prompt "Rome is in", can we steer a language model to flip its prediction of an incorrect token "France" to a correct token "Italy" by only multiplying a few relevant activation vectors with scalars? We argue that successfully intervening on a model is a prerequisite for interpreting its internal workings. Concretely, we establish a three-term obje

发现论文，激发创造

评估语言模型的零样本鲁棒性

本研究提出了一种简单的方法来提高指导微调模型的鲁棒性，即通过引入“软提示”嵌入参数并优化这些参数来最大化语义等效说明的表示之间的相似性。

Jun, 2023

激活增加：不经优化的引导语言模型

控制大型语言模型行为的问题已成为紧迫的开放问题。在本文中，我们提出了一种称为Activation Addition (ActAdd)的方法，通过在推理过程中修改激活来可预测地改变模型行为，并展示了其在GPT-2上的应用，以及其与微调或强化学习从人类反馈中得到控制的方法相比所需的计算量和实施工作的差异。

Aug, 2023

语言模型激活修复的最佳实践：度量与方法

我们系统地研究了激活补丁技术的方法学细节，包括评估指标和数据污染方法，并发现这些超参数的变化可能导致差异化的解释结果。根据经验观察，我们提出了为什么应该优先选择某些指标或方法的概念性论证，并最终对激活补丁技术提供了最佳实践建议。

Sep, 2023

用均值居中改进语言模型中的激活引导

通过应用均值中心化的思想，我们发现将与目标数据集相关的激活平均值减去所有训练激活的均值，可以得到有效的转向向量，这在广泛的上下文中可以轻松改善激活转向的有效性。

Dec, 2023

观察性缩放律与语言模型性能的可预测性

通过观测法利用多个已有模型家族构建单一的扩展律，展示了复杂的扩展现象是可预测的，模型性能可以从简单的非代理基准准确预测，预测了后期训练干预的影响。

May, 2024

探索语言模型参数的激活模式

基于梯度的度量方法探索了大型语言模型内部的参数激活程度，发现参数在浅层被密集激活，而在深层被稀疏激活；当输入跨越不同领域时，浅层参数的激活行为更相似；在深层，参数的激活分布与实际数据相关性呈正相关；进一步验证了这些发现，并期望能在实际应用中产生更多启发。

May, 2024

利用动态激活组合对大型语言模型进行多属性调控

本研究评估了不同的激活导向策略，并提出了动态激活组合方法，以确保在生成过程中实现高度的条件控制同时最小化对生成流畅性的影响。

Jun, 2024

分析干向量的泛化和可靠性 - ICML 2024

通过干预中间模型激活来有效调整语言模型行为的截向矢量（Steering Vectors）是一种新的方法，但其可靠性和泛化属性尚不明确。我们对这些属性进行了严格的研究，发现截向矢量在分布内外都存在重大限制，并且在某些概念上对输入的每个有效性具有显著的变异性，这给广泛使用截向矢量带来了挑战。总体而言，我们的发现表明，尽管截向矢量在适当的环境下可以发挥作用，但在规模应用中应用截向矢量来指导模型行为仍存在许多技术难题。

Jul, 2024

第一激活至关重要：大型语言模型中无训练动态激活的方法

本研究解决了动态激活技术在大型语言模型中依赖ReLU激活函数和额外训练参数的问题，提出了一种无需训练的阈值动态激活(TDA)方法。这一方法利用序列信息提升了模型的固有稀疏性，加速了生成速度18-25%，在不显著影响任务表现的情况下，推动了研究的有效性和效率。

Aug, 2024

通过激活引导改善语言模型的指令跟随能力

本研究解决了语言模型在实际应用中的指令跟随能力不足的问题。研究提出了一种从语言模型中提取特定指令向量的方法，以增强模型对指令的遵循，并展示了在推理时控制输出格式、长度等约束的能力。实验结果表明，该方法在没有明确指令的情况下也能使模型更好地遵循约束，并在有指令时提高了性能，具有显著的潜在影响。

Oct, 2024