LLM电路分析在训练和尺度方面的始终如一性
本研究通过贝叶斯和频率分析结合,从29个LLM的数据中分析出LLMs的能力结构,发现LLMs的能力不是单一的,而是可以被解释为三个能力:推理、理解和核心语言建模,并且这三个能力可以解释模型性能的高比例差异,可以用来指导模型的改进和评测。
Jun, 2023
通过本研究,我们发现指导微调对大型语言模型产生了三个重要影响,包括了对指令识别的加强、对知识存储层次的对齐以及对单词关系学习的促进。这些发现有助于更深入地理解指导微调对大型语言模型行为变化的影响,并为未来解释和优化这些模型以适用于不同应用领域的研究打下了基础。
Sep, 2023
基于人类行为学视角,我们探究了大型语言模型(LLMs)的预测过程和内部机制,通过将LLMs的值与眼动测量结果相关联,发现LLMs表现出与基于RNN的语言模型不同的预测模式。此外,随着前馈网络(FFN layers)的升级,记忆和语言知识编码的能力也逐渐提升直至达到巅峰,并转向注重理解能力。自注意力机制的功能分布在多个头部。最后,我们审查了门控机制,发现它们控制信息的流动,有些门控机制促进信息的传递,而其他门控机制则消除信息。
Oct, 2023
基于全面的模型性能至诚态度,我们系统调查了数据量、参数规模和数据构建方法对各种能力发展的影响,并通过新的40k人工指导的指令数据集进行了数百个模型检查点(7b到33b)的全面指导优化。我们的研究揭示了三个主要发现:(i)尽管数据量和参数规模直接影响模型的整体性能,但某些能力更容易受到其增加的影响,并且可以通过有限数据进行有效训练,而某些能力对这些变化高度抵抗。(ii)人工指导的数据在效率上明显优于GPT-4的合成数据,并且可以随着数据量增加不断提高模型性能,而合成数据则无法达到这种效果。(iii)指令数据带来了强大的跨能力泛化性,域外数据的评估结果反映了前两个观察结果。此外,我们还展示了这些发现如何指导更高效的数据构建,从而在公共基准测试中实现实际性能的提升。
Oct, 2023
当前大型语言模型(LLMs)在生成符合语法、流畅的文本方面无与伦比。这篇论文针对LLMs的能力进行了辩论,并通过批判性评估三个经常在批评中出现的观点来展示LLMs仍需更多细化。其次,文章从实证和理论的角度提出了对LLMs中“真正”的理解和意向性的实用观点,并讨论了在何种情况下将心理状态归因于LLMs对于这一日益重要的技术在社会中具有实用的哲学背景。
Oct, 2023
通过将大型语言模型(LLMs)转换为专家混合(MoE)架构,分析其在处理各种语言时的专家激活模式,探索并发现非语言特定神经元和语言特定激活神经元的存在,并展示了仅利用高频激活神经元可以在保持相当性能的同时加速推理的可能性,这些发现为LLMs的多语言处理机制提供了启示,对指导LLMs的多语言训练和模型修剪具有重要意义。
Feb, 2024
多语言模型(LLMs)中的多语言能力和处理机制的体系结构、激活模式和处理方法的深入分析的研究结果表明模型的层次结构和深度对多语言处理能力有影响。
Apr, 2024
该研究以百川-7B和百川-33B为焦点,深入探讨大型语言模型的认知和表达能力在预训练、监督微调和强化学习三个关键阶段的发展规律,揭示了认知能力在预训练阶段建立,而表达能力主要在微调和强化学习阶段提升的顺序性发展模式,并探索了这些差异发展轨迹与LLMs的架构设计之间的理论基础,同时评估了少样本学习和重复采样等优化无关策略对认知和表达能力之间的桥梁作用,从而为培训过程的可解释性和可控性提供了有价值的洞见。
May, 2024
通过对已有大语言模型进行适应和扩展,我们研究了构建语言专属的大语言模型。我们通过系统实验探究基础模型选择、词汇扩展和持续微调等设计选择对适应后的大语言模型的效率(编码同样数量信息所需的词汇数)和最终任务性能的影响。我们发现,(1)适应前的初始性能并不总是最终性能的指示;(2)大多数研究的大语言模型可以通过简单的词汇扩展和持续微调来提高效率;(3)最佳的适应方法高度依赖于语言,简单的方法在各种实验设置中都表现良好。与适应多语言模型相比,适应以英语为中心的模型在资源稀缺语言上可以取得更好的结果。总之,我们的工作为通过适应现有大语言模型高效构建语言专属大语言模型奠定了基础。
Jun, 2024