LLM电路分析在训练和尺度方面的始终如一性

Jul, 2024

LLM电路分析在训练和尺度方面的始终如一性

LLM Circuit Analyses Are Consistent Across Training and Scale

Curt Tigges, Michael Hanna, Qinan Yu, Stella Biderman

TL;DR追踪了70百万到28亿参数规模的3000亿标记的解码器型大语言模型中模型机制的出现和演化，发现任务能力和支持它们的功能组件在规模不同的情况下一致地出现，并且虽然这些组件可能随时间由不同的注意力头实现，但其实施的总体算法保持不变。这些结果表明，在预训练结束后进行的对小型模型的线路分析仍然适用于额外的预训练和不同规模的模型。

Abstract

Most currently deployed large language models (LLMs) undergo continuous training or additional finetuning. By contrast, most research into LLMs' internal mechanisms focuses on models at one snapshot in time (the

发现论文，激发创造

大型语言模型调查

本文介绍了最近关于预训练语言模型（PLMs）的新进展，重点讨论了大型语言模型的预训练、适应和调整、利用和容量评估四个方面，并讨论了未来研究的问题和方向。

Mar, 2023

揭示语言模型能力结构

本研究通过贝叶斯和频率分析结合，从29个LLM的数据中分析出LLMs的能力结构，发现LLMs的能力不是单一的，而是可以被解释为三个能力：推理、理解和核心语言建模，并且这三个能力可以解释模型性能的高比例差异，可以用来指导模型的改进和评测。

Jun, 2023

从语言建模到指令遵循：理解指令调优后LLMs的行为转变

通过本研究，我们发现指导微调对大型语言模型产生了三个重要影响，包括了对指令识别的加强、对知识存储层次的对齐以及对单词关系学习的促进。这些发现有助于更深入地理解指导微调对大型语言模型行为变化的影响，并为未来解释和优化这些模型以适用于不同应用领域的研究打下了基础。

Sep, 2023

从人类行为角度探索语言模型

基于人类行为学视角，我们探究了大型语言模型（LLMs）的预测过程和内部机制，通过将LLMs的值与眼动测量结果相关联，发现LLMs表现出与基于RNN的语言模型不同的预测模式。此外，随着前馈网络（FFN layers）的升级，记忆和语言知识编码的能力也逐渐提升直至达到巅峰，并转向注重理解能力。自注意力机制的功能分布在多个头部。最后，我们审查了门控机制，发现它们控制信息的流动，有些门控机制促进信息的传递，而其他门控机制则消除信息。

Oct, 2023

指导调优的动力学：大型语言模型中的每个能力都有自己的增长速度

基于全面的模型性能至诚态度，我们系统调查了数据量、参数规模和数据构建方法对各种能力发展的影响，并通过新的40k人工指导的指令数据集进行了数百个模型检查点（7b到33b）的全面指导优化。我们的研究揭示了三个主要发现：（i）尽管数据量和参数规模直接影响模型的整体性能，但某些能力更容易受到其增加的影响，并且可以通过有限数据进行有效训练，而某些能力对这些变化高度抵抗。（ii）人工指导的数据在效率上明显优于GPT-4的合成数据，并且可以随着数据量增加不断提高模型性能，而合成数据则无法达到这种效果。（iii）指令数据带来了强大的跨能力泛化性，域外数据的评估结果反映了前两个观察结果。此外，我们还展示了这些发现如何指导更高效的数据构建，从而在公共基准测试中实现实际性能的提升。

Oct, 2023

大型语言模型：当前辩论的细腻需求和实用角度下的理解

当前大型语言模型（LLMs）在生成符合语法、流畅的文本方面无与伦比。这篇论文针对LLMs的能力进行了辩论，并通过批判性评估三个经常在批评中出现的观点来展示LLMs仍需更多细化。其次，文章从实证和理论的角度提出了对LLMs中“真正”的理解和意向性的实用观点，并讨论了在何种情况下将心理状态归因于LLMs对于这一日益重要的技术在社会中具有实用的哲学背景。

Oct, 2023

解密巴别塔：探索大型语言模型中的多语言激活模式

通过将大型语言模型（LLMs）转换为专家混合（MoE）架构，分析其在处理各种语言时的专家激活模式，探索并发现非语言特定神经元和语言特定激活神经元的存在，并展示了仅利用高频激活神经元可以在保持相当性能的同时加速推理的可能性，这些发现为LLMs的多语言处理机制提供了启示，对指导LLMs的多语言训练和模型修剪具有重要意义。

Feb, 2024

理解FFNs在LLMs中推动多语言行为的角色

多语言模型（LLMs）中的多语言能力和处理机制的体系结构、激活模式和处理方法的深入分析的研究结果表明模型的层次结构和深度对多语言处理能力有影响。

Apr, 2024

探索从认知到表达的LLM之旅

该研究以百川-7B和百川-33B为焦点，深入探讨大型语言模型的认知和表达能力在预训练、监督微调和强化学习三个关键阶段的发展规律，揭示了认知能力在预训练阶段建立，而表达能力主要在微调和强化学习阶段提升的顺序性发展模式，并探索了这些差异发展轨迹与LLMs的架构设计之间的理论基础，同时评估了少样本学习和重复采样等优化无关策略对认知和表达能力之间的桥梁作用，从而为培训过程的可解释性和可控性提供了有价值的洞见。

May, 2024

探索构建语言特定的LLM的设计选择

通过对已有大语言模型进行适应和扩展，我们研究了构建语言专属的大语言模型。我们通过系统实验探究基础模型选择、词汇扩展和持续微调等设计选择对适应后的大语言模型的效率（编码同样数量信息所需的词汇数）和最终任务性能的影响。我们发现，（1）适应前的初始性能并不总是最终性能的指示；（2）大多数研究的大语言模型可以通过简单的词汇扩展和持续微调来提高效率；（3）最佳的适应方法高度依赖于语言，简单的方法在各种实验设置中都表现良好。与适应多语言模型相比，适应以英语为中心的模型在资源稀缺语言上可以取得更好的结果。总之，我们的工作为通过适应现有大语言模型高效构建语言专属大语言模型奠定了基础。

Jun, 2024