LLaMA-Adapter: 使用零初始化注意力对语言模型进行高效微调
本文介绍 LlaMA-Adapter V2,是一种解锁更多可学习参数并引入早期融合策略、共同训练数据的参数高效视觉指令模型,可用于多模态推理,对于开放式的视觉指令,具有更强的泛化能力。
Apr, 2023
本文介绍了一种基于标签监督的适应大语言模型(LLMs)的方法,通过从 LLMs 提取潜在表示并将其投影到标签空间计算交叉熵损失来微调模型。在各种下游任务中,该方法显著优于比其十倍规模的 LLMs 以及其他强大的基线模型如 BERT-Large 和 RoBERTa-Large。此外,通过从解码器中移除因果掩码,LS-unLLaMA 在命名实体识别(NER)中实现了最先进的性能。
Oct, 2023
本文研究了使用指令驱动数据 fine-tune 的 LLMa 模型在写作场景下的性能,结果表明持续地使用写作数据对 LLMa 进行微调,可以显著提高它在写作任务上的表现,并为未来 LlMa 在特定场景中的微调提供了洞见。
May, 2023
该研究探讨了将原本为大型语言模型(LLMs)设计的仅解码器 Transformer(如 LLaMA)改编为适用于计算机视觉领域的可能性,并成功开发了一种名为 iLLaMA 的模型,具备高效计算能力和学习复杂表示的特点,达到了优秀的 ImageNet 数据集准确率。
Apr, 2024
LLaMA-Excitor 是一种基于轻量级方法的 LLMs 细调技术,通过逐渐更多地关注值得重视的信息,实现对指令的更好遵循,并保持 LLMs 的预训练知识。此方法在低质量指令遵循数据集的 LLMs 细调中表现出自适应分配额外关注的能力,并能在复杂的多模态对齐需求下将其扩展为强大的视觉指令跟踪器。我们的方法在仅语言和多模态调优实验场景中进行评估,以 MMLU 基准测试为例,LLaMA-Excitor 是唯一保持基本能力且实现显著改进(+6%)的方法。在视觉指令调优方面,我们在 MSCOCO 上实现了 157.5 CIDEr 的最新成果,并在 ScienceQA 上获得了与基于更多参数和广泛视觉语言相关模型相当的性能(88.39%)。
Apr, 2024
ALTER 是一个基于小型语言模型的多任务学习系统,它通过混合任务适应器来同时处理多个自然语言处理任务,以支持领域特定的应用。实验证明,ALTER 提出的 MTA 架构和二阶段训练方法实现了良好的性能。
Sep, 2023
我们提出了一种可扩展的方法,通过自动标记人工编写的文本与相应的指令来构建高质量的指令跟随语言模型。我们的方法命名为指令反向翻译,使用少量种子数据和给定的网络语料库对语言模型进行微调,通过为网络文档生成指令提示来构建训练样本(自助增强),然后从这些候选样本中选择高质量的例子(自我策划)。然后使用这些数据对模型进行微调。对 LLaMa 进行两次迭代的微调可以得到一个模型,它在 Alpaca 排行榜上性能优于其他基于 LLaMa 的模型,并且不依赖蒸馏数据,展示了高度有效的自我对齐。
Aug, 2023
通过提出 Adaptive Zeroth-order Tensor-Train Adaption (AdaZeta) 框架,本文致力于改进 ZO 方法的性能和收敛性,主要关注的问题包括维度相关的 ZO 估计准确性、大规模 ZO 微调任务中的发散问题,通过详细的理论分析和实验结果论证了 AdaZeta 框架在准确性、内存效率和收敛速度方面的有效性。
Jun, 2024
LLaMA-Reviewer 是一个创新框架,利用了 LLaMA(一种流行的大型语言模型)在代码审查领域的能力。通过使用参数高效的微调方法,即使使用了 6.7B 参数的最小 LLaMA 基础模型和有限的微调时期,LLaMA-Reviewer 也能达到现有的面向代码审查的模型的性能。
Aug, 2023
通过两阶段微调算法,改进了大型语言模型(LLMs)遵循翻译指示的能力,特别是翻译方向信息,从而有效降低了错位翻译比率(平均降低 53.3%),提高了翻译质量(平均增加 5.7 SacreBLEU 和 16.4 BLEURT)。
Mar, 2024