对语言模型激活的敌对攻击的尺度定律

Dec, 2023

对语言模型激活的敌对攻击的尺度定律

Scaling Laws for Adversarial Attacks on Language Model Activations

Stanislav Fort

TL;DR用语言模型的激活进行对抗性攻击的研究表明，操纵模型激活的相对较小的子集可以精确控制大量（最多达到 1000 个）随后的标记预测，并发现对输入空间的控制与对输出空间的控制存在一致性，并且攻击模型的激活比攻击标记要强得多，这为对多模式和选定检索模型的攻击提供了新的可能性。

Abstract

We explore a class of adversarial attacks targeting the activations of language models. By manipulating a relatively small subset of model

adversarial attacks activations language models tokens dimensionality mismatch

发现论文，激发创造

采用剩余流激活分析对大型语言模型进行防御

借助大型语言模型（LLMs），我们提出了一种创新的防御策略，通过对 LLM 的 Transformer 层之间的残余激活分析，实现对恶意输入的攻击提示分类的高准确性，同时集成安全微调技术提升模型的鲁棒性和提高检测和缓解对抗性输入的能力。

Jun, 2024

语言模型的可靠性扩展：超级训练与下游任务

基于语言模型的缩放定律，本研究通过建立 104 个模型的测试平台，以不同数量的标记在三个数据分布上进行训练，研究了超过训练的情况下的缩放和语言模型的下游任务性能之间的关系。

Mar, 2024

神经语言模型的缩放律

本文研究了语言模型性能对交叉熵损失计算的经验性规律，发现损失与模型大小、数据集大小和训练所用计算量呈幂律关系，而网络宽度或深度变化对性能影响较小，最优的计算效率可通过训练大型模型、使用适量数据并在达到最佳性能前停止训练来实现。

Jan, 2020

大规模语言模型中的大规模激活

研究发现大型语言模型中存在大量激活，它们相对于其他激活值明显较大（如大约 10 万倍）；这些巨大激活是普遍存在的且对 LLMs 起着重要的偏置项作用，导致注意力概率集中在相应的单词上并进一步成为自我注意输出中的隐含偏置项；此外，还研究了在视觉转换器中产生的大激活。

Feb, 2024

揭开缩放法则之迷：第一部分

本技术报告确认原始 OpenAI 论文中提出的缩放定律公式在将模型大小扩大至 330 亿时仍然有效，但这些公式中的常数系数依赖于实验设置。我们细致地确定了影响因素，并提供透明的逐步指导，通过在包含 1M~60M 参数的模型上进行训练估算出缩放定律数学公式中的所有常数项。利用这些估算公式，我们展示了在其训练之前准确预测多达 330B 参数模型的各种属性的能力，包括 (1) 最小可能测试损失；(2) 实现特定损失所需的最小训练步骤和处理的标记数；(3) 在任何损失值上具有最佳时间 / 计算权衡的关键批大小；以及 (4) 完整的测试损失轨迹和任意批大小。

Mar, 2024

大型语言模型的时间尺度定律

最近，大型语言模型广泛应用于各种任务，对于如何扩展语言模型对其性能的影响的研究引起了越来越多的关注。本文提出了新概念的时间缩放定律，并研究了语言模型在时间维度上的损失。研究发现，尽管存在损失不平衡，语言模型在不同的令牌位置上学习是均匀的。通过在各种规模的预训练语言模型上进行的实验验证了这一现象，并提供了对预训练语言模型更深入的理解。

Apr, 2024

后门激活攻击：使用激活引导实施对大型语言模型的攻击以达到安全对齐

通过向大型语言模型注入木马激活向量，我们提出了一种名为后门激活攻击的新型攻击框架，使得模型在推理时可以被激活并朝着攻击者所期望的行为方向进行操纵，该方法在主要的对齐任务上表现出高度的有效性，并且几乎不会给攻击效率增加任何开销，同时讨论了对抗此类激活攻击的潜在对策。

Nov, 2023

线性复杂度语言模型的尺度定律

本研究通过研究线性复杂度语言模型的扩展性建立了基础，并对三种高效的线性架构进行了扩展行为的分析。结果显示，现有的线性复杂度语言模型在扩展能力、语言熟练度和知识保留方面与传统基于 transformer 的模型相似。

Jun, 2024

多语言神经机器翻译的规模定律

本研究提供了一个大规模的实证研究，研究了多语言神经机器翻译模型的缩放特性，包括模型规模对模型性能的影响，训练混合物组成对缩放行为的作用，以及语言相似性在模型缩放中的作用。通过新颖的联合缩放定律公式，我们计算了每个语言对分配的有效参数数量，并发现了翻译多个语言到英语的模型比反向模型具有更多的任务有效参数。最终，我们利用这些发现预测了任何规模的带有任何语言加权的多语言模型的性能，显著减少了大型多语言模型中语言平衡所需的工作量。

Feb, 2023

观察性缩放律与语言模型性能的可预测性

通过观测法利用多个已有模型家族构建单一的扩展律，展示了复杂的扩展现象是可预测的，模型性能可以从简单的非代理基准准确预测，预测了后期训练干预的影响。

May, 2024