借助大型语言模型(LLMs),我们提出了一种创新的防御策略,通过对 LLM 的 Transformer 层之间的残余激活分析,实现对恶意输入的攻击提示分类的高准确性,同时集成安全微调技术提升模型的鲁棒性和提高检测和缓解对抗性输入的能力。
Jun, 2024
基于语言模型的缩放定律,本研究通过建立 104 个模型的测试平台,以不同数量的标记在三个数据分布上进行训练,研究了超过训练的情况下的缩放和语言模型的下游任务性能之间的关系。
Mar, 2024
本文研究了语言模型性能对交叉熵损失计算的经验性规律,发现损失与模型大小、数据集大小和训练所用计算量呈幂律关系,而网络宽度或深度变化对性能影响较小,最优的计算效率可通过训练大型模型、使用适量数据并在达到最佳性能前停止训练来实现。
Jan, 2020
研究发现大型语言模型中存在大量激活,它们相对于其他激活值明显较大(如大约 10 万倍);这些巨大激活是普遍存在的且对 LLMs 起着重要的偏置项作用,导致注意力概率集中在相应的单词上并进一步成为自我注意输出中的隐含偏置项;此外,还研究了在视觉转换器中产生的大激活。
Feb, 2024
本技术报告确认原始 OpenAI 论文中提出的缩放定律公式在将模型大小扩大至 330 亿时仍然有效,但这些公式中的常数系数依赖于实验设置。我们细致地确定了影响因素,并提供透明的逐步指导,通过在包含 1M~60M 参数的模型上进行训练估算出缩放定律数学公式中的所有常数项。利用这些估算公式,我们展示了在其训练之前准确预测多达 330B 参数模型的各种属性的能力,包括 (1) 最小可能测试损失;(2) 实现特定损失所需的最小训练步骤和处理的标记数;(3) 在任何损失值上具有最佳时间 / 计算权衡的关键批大小;以及 (4) 完整的测试损失轨迹和任意批大小。
最近,大型语言模型广泛应用于各种任务,对于如何扩展语言模型对其性能的影响的研究引起了越来越多的关注。本文提出了新概念的时间缩放定律,并研究了语言模型在时间维度上的损失。研究发现,尽管存在损失不平衡,语言模型在不同的令牌位置上学习是均匀的。通过在各种规模的预训练语言模型上进行的实验验证了这一现象,并提供了对预训练语言模型更深入的理解。
Apr, 2024
通过向大型语言模型注入木马激活向量,我们提出了一种名为后门激活攻击的新型攻击框架,使得模型在推理时可以被激活并朝着攻击者所期望的行为方向进行操纵,该方法在主要的对齐任务上表现出高度的有效性,并且几乎不会给攻击效率增加任何开销,同时讨论了对抗此类激活攻击的潜在对策。
Nov, 2023
本研究通过研究线性复杂度语言模型的扩展性建立了基础,并对三种高效的线性架构进行了扩展行为的分析。结果显示,现有的线性复杂度语言模型在扩展能力、语言熟练度和知识保留方面与传统基于 transformer 的模型相似。
本研究提供了一个大规模的实证研究,研究了多语言神经机器翻译模型的缩放特性,包括模型规模对模型性能的影响,训练混合物组成对缩放行为的作用,以及语言相似性在模型缩放中的作用。通过新颖的联合缩放定律公式,我们计算了每个语言对分配的有效参数数量,并发现了翻译多个语言到英语的模型比反向模型具有更多的任务有效参数。最终,我们利用这些发现预测了任何规模的带有任何语言加权的多语言模型的性能,显著减少了大型多语言模型中语言平衡所需的工作量。
Feb, 2023
通过观测法利用多个已有模型家族构建单一的扩展律,展示了复杂的扩展现象是可预测的,模型性能可以从简单的非代理基准准确预测,预测了后期训练干预的影响。
May, 2024