XFT：通过简单合并升级的专家混合解锁代码指令调优的潜力

Apr, 2024

XFT：通过简单合并升级的专家混合解锁代码指令调优的潜力

XFT: Unlocking the Power of Code Instruction Tuning by Simply Merging Upcycled Mixture-of-Experts

Yifeng Ding, Jiawei Liu, Yuxiang Wei, Terry Yue Zhuo, Lingming Zhang

TL;DR通过将升级 Mixture-of-Experts (MoE) 与稀疏升级相结合，并引入共享专家机制和路由权重归一化策略，XFT 训练方案显著增强了指令调优，将升级 MoE 型号编译回密集型型号，实现了与升级 MoE 型号相当的性能。应用 XFT 到 1.3B 模型，我们创造了一种新的最先进的微型代码 LLM (<3B)，在 HumanEval 和 HumanEval+ 上分别达到了 67.1 和 64.6 的 pass@1。与现有技术如 Evol-Instruct 和 OSS-Instruct 完全不冲突，为改善代码指令调优提供了新的维度。

Abstract

We introduce xft, a simple yet powerful training scheme, by simply merging upcycled mixture-of-experts (MoE) to unleash the performance limit of instruction-tuned →

xft upcycled mixture-of-experts instruction tuning code large language models performance improvement

发现论文，激发创造

专家坚持自己的领域：面向稀疏架构的专家专用微调技术

参数高效的微调（PEFT）是为了定制具有受限资源的大型语言模型（LLMs）而关键。本文研究了 Mixture-of-Experts（MoE）架构的 LLMs 上的 PEFT 方法，主要工作内容包括：（1）研究定制任务中激活的专家的集中程度，发现特定任务的路由分布往往高度集中，而激活的专家分布在不同任务之间差异显著。（2）提出了专家定制微调（ESFT），该方法在冻结其他专家和模块的同时调整与下游任务最相关的专家；实验结果表明，我们的方法不仅提高了调整效率，还甚至超过了全参数微调的性能。（3）进一步分析 MoE 架构对专家定制微调的影响，发现具有更细粒度专家的 MoE 模型能更好地选择与下游任务最相关的专家组合，从而提高训练效率和效果。

Jul, 2024

MFTCoder：多任务精调提升代码 LLMs

Code LLMs have been enhanced through multi-task fine-tuning using MFTcoder, which outperforms single-task fine-tuning and achieves impressive performance, surpassing GPT-4 on the HumaneEval benchmark.

Nov, 2023

MEFT：通过稀疏适配器实现内存高效微调

通过使用较大的尺寸但内存高效的适配器，结合语言模型中前馈网络的固有激活稀疏性以及中央处理器内存相对于图形处理器更大的容量，我们提出了一种改进的方法来优化在有限资源下大型语言模型的微调性能。通过将较大尺寸的适配器的参数存储和更新在中央处理器上，并采用类似于专家混合 (MoE) 的架构来减少不必要的中央处理器计算和图形处理器之间的通信量，尤其是在 PCI Express (PCIe) 的有限带宽下，我们的方法可以实现与具有更大内存容量的情况下相媲美的微调结果，即使在较为有限的资源下，如只有 24GB 内存单 GPU 设置下，也能达到可接受的训练效率损失。

Jun, 2024

Astraios: 参数高效调整代码的大规模语言模型

基于 28 个调优方法和 4 个模型尺寸，通过对 5 项任务和 8 个不同数据集的研究，我们发现完全参数微调通常在所有尺度上都能提供最佳的下游性能，并且参数高效微调方法在模型规模上的功效存在显著差异。然而，LoRA 方法通常在成本和性能之间提供了最有利的平衡。此外，我们还发现较大的模型往往表现出较低的稳健性和较低的安全性。最后，我们探讨了更新的参数、交叉熵损失和任务性能之间的关系，并发现在小型模型中观察到的调优效果在大型模型中也普遍适用，指导性调优中的验证损失可以作为总体下游性能的可靠指标。

Jan, 2024

ComPEFT: 通过稀疏化和量化进行参数高效更新的压缩传输

Parameter-efficient fine-tuning techniques, such as ComPEFT, compress expert models without retraining, achieving high compression ratios while preserving or enhancing model performance for efficient communication, computation, and few-shot compositional generalization.

Nov, 2023

利用大型语言模型进行代码生成的参数高效微调技术探究

通过对大规模语言模型进行参数高效微调技术的研究，本文在自动化代码生成场景下全面研究了这些技术对大规模语言模型的影响，实验结果表明这些技术在减轻计算负担和提高性能方面表现优越，为软件工程场景中的更广泛应用开启了机会。

Aug, 2023

大规模语言模型的稀疏微调扩展

大型语言模型 (Large Language Models) 在指令或人类反馈方面很难进行全面的微调，但参数高效稀疏微调 (sparse fine-tuning) 的方法已经在性能上取得了一定的成果，本文将稀疏微调方法扩展到像 LLaMA 2 7B 和 13B 这样的最先进的 LLMs，实验证明对指令调整进行稀疏微调通常比流行的参数高效微调方法如 LoRA 表现更好，并且在运行时间上可比较。

Jan, 2024

X-PEFT：面向极端多个配置的极其参数高效微调

引入 X-PEFT，一种新的参数高效微调方法，通过微调极小的紧凑张量，作为二进制掩码来自适应地选择给定适配器，从而解决适配器数量线性增加的问题，相较于传统的适配器微调，在每个配置文件的内存需求减少了 10000 倍，而在 LaMP 和 GLUE 任务中表现出与传统适配器微调相当或超越的效果。

Jan, 2024

改进和解释预训练语言模型的语言专家混合适配器

本研究提出了一种方法，在参数高效微调（PEFT）环境中将语言结构注入到预训练语言模型中。我们使用一种新颖的语言专家混合体架构，将编码不同语言结构的并行适配器模块进行组合，并使用 Gumbel-Softmax 门来确定模型每一层中这些模块的重要性。为了减少参数数量，在修剪专家之前，我们首先对模型进行了固定步骤的训练。我们用三种不同的预训练模型进行实验，结果表明我们的方法在具有相当数量的参数的情况下，能够胜过最先进的 PEFT 方法。此外，我们还提供了额外分析，以检查和提供未来研究的见解。

Oct, 2023

分散 - 合并：通过减少对齐税来推动指令调优的极限

通过我们的研究，我们提出一个假设：数据偏差可能是大型语言模型在细调过程的后期出现性能下降的原因之一。为了解决这个问题，我们引入了一个简单的分散然后合并的框架。尽管简单，我们的框架在一系列标准的知识和推理基准测试中优于各种复杂的方法。

May, 2024