Mar, 2024

专注于神经元:神经元级别的大语言模型有监督微调

TL;DR大型语言模型 (LLMs) 由表现出各种行为和角色的神经元构成,随着模型规模的扩大,它们变得越来越多样化。研究发现,并非所有神经元在不同的数据集上都活跃,这种稀疏性与任务特定能力呈正相关,为模型剪枝和训练效率的进展提供了基础。传统的微调方法涉及LLMs的所有参数,计算复杂且可能不必要。相反,参数高效的微调方法旨在减少可训练参数的数量,但它们仍在相对宏观(例如,层级)上操作。我们介绍了神经元级微调 (NeFT),一种将参数训练的粒度细化到单个神经元,实现更精确、计算更高效的模型更新的新方法。实验结果表明,NeFT不仅超过了全参数微调和参数高效微调的性能,还为神经元分析提供了深入洞见。