平衡专业性和多功能性:一种用于监督微调大型语言模型的由粗到细的框架
为了解决 fine-tuning 中特性和广泛适用性之间的矛盾,我们研究了来自持续学习的多种规范化方法和来自越界通用化的权重平均方法,发现持续学习和 Wise-FT 方法可以有效减轻广泛适用性的损失,其中 Wise-FT 在平衡特性和广泛适用性方面表现最好。
Sep, 2023
介绍了用于微调和评估大型语言模型(LLMs)用于专门的货币化任务的多方面方法论,目标是在一般语言能力和领域特定技能之间实现平衡。方法论有三个主要组成部分:1)在微调过程中精心混合领域内和通用数据,以实现一般能力和专业能力之间的最佳平衡;2)设计全面的评估框架,包含 45 个问题,旨在评估在功能相关维度(如可靠性、一致性和商业影响)上的表现;3)分析模型大小和持续训练对度量指标的影响,以指导在微调过程中的高效资源分配。本文详细介绍了所提出框架的设计、数据收集、分析技术和验证结果,旨在为企业和研究人员提供行动洞察,以有效地使 LLMs 适应专门的环境。我们还打算公开全面的评估框架,其中包括 45 个量身定制的问题及其相应的评分指南,以促进 LLMs 在专门任务上的透明度与合作。
Oct, 2023
大型语言模型 (LLMs) 由表现出各种行为和角色的神经元构成,随着模型规模的扩大,它们变得越来越多样化。研究发现,并非所有神经元在不同的数据集上都活跃,这种稀疏性与任务特定能力呈正相关,为模型剪枝和训练效率的进展提供了基础。传统的微调方法涉及 LLMs 的所有参数,计算复杂且可能不必要。相反,参数高效的微调方法旨在减少可训练参数的数量,但它们仍在相对宏观(例如,层级)上操作。我们介绍了神经元级微调 (NeFT),一种将参数训练的粒度细化到单个神经元,实现更精确、计算更高效的模型更新的新方法。实验结果表明,NeFT 不仅超过了全参数微调和参数高效微调的性能,还为神经元分析提供了深入洞见。
Mar, 2024
大型语言模型 (Large Language Models) 在指令或人类反馈方面很难进行全面的微调,但参数高效稀疏微调 (sparse fine-tuning) 的方法已经在性能上取得了一定的成果,本文将稀疏微调方法扩展到像 LLaMA 2 7B 和 13B 这样的最先进的 LLMs,实验证明对指令调整进行稀疏微调通常比流行的参数高效微调方法如 LoRA 表现更好,并且在运行时间上可比较。
Jan, 2024
参数高效的微调(PEFT)是为了定制具有受限资源的大型语言模型(LLMs)而关键。本文研究了 Mixture-of-Experts(MoE)架构的 LLMs 上的 PEFT 方法,主要工作内容包括:(1)研究定制任务中激活的专家的集中程度,发现特定任务的路由分布往往高度集中,而激活的专家分布在不同任务之间差异显著。(2)提出了专家定制微调(ESFT),该方法在冻结其他专家和模块的同时调整与下游任务最相关的专家;实验结果表明,我们的方法不仅提高了调整效率,还甚至超过了全参数微调的性能。(3)进一步分析 MoE 架构对专家定制微调的影响,发现具有更细粒度专家的 MoE 模型能更好地选择与下游任务最相关的专家组合,从而提高训练效率和效果。
Jul, 2024
该论文介绍了一种名为自然语言反馈微调 LLM(LaFFi)的替代方法,通过要求 LLM 直接预测从评注者那里得到的反馈,显著提高了领域内问答任务的准确性,为自然语言反馈在 SFT LLMs 领域的应用提供了一个有前途的方向。
Dec, 2023
这篇论文介绍了一种名为局部微调的框架(LoFiT)的方法,该方法通过识别对于特定任务学习最重要的一小部分注意力头,然后训练偏移向量添加到模型的隐藏表示中,从而有效地调整了大型语言模型的表示,用于适应指定任务,相比表示干预方法,LoFiT 的干预向量在提高模型真实性和推理任务上更加有效。
Jun, 2024
我们提出了一种粗细链式思维(CoF-CoT)方法,将自然语言理解任务分解为多个推理步骤,以便大型语言模型学习获取和利用解决不同粒度任务所需的关键概念,并利用基于语义的抽象意义表示(AMR)结构化知识作为中间步骤,捕捉话语的细微差别和多样性结构,并理解它们的不同层次之间的联系。我们的方法在零样本和少样本多领域设置下,证明了对大型语言模型在多粒度自然语言理解任务中的辅助作用。
Oct, 2023
Code LLMs have been enhanced through multi-task fine-tuning using MFTcoder, which outperforms single-task fine-tuning and achieves impressive performance, surpassing GPT-4 on the HumaneEval benchmark.
Nov, 2023
该研究探讨了大型语言模型的细调策略,发现可替代方法在领域外泛化方面与标准方法相媲美,强调了对有效提示的需求,并针对可用资源和任务适应性进行合适的细调方法选择。
May, 2024