通过自适应反向传播实现大规模语言模型微调中的绿色人工智能

Sep, 2023

通过自适应反向传播实现大规模语言模型微调中的绿色人工智能

Towards Green AI in Fine-tuning Large Language Models via Adaptive Backpropagation

Kai Huang, Hanyun Yin, Heng Huang, Wei Gao

TL;DR通过评估不同张量的反向传播成本和对精调模型准确性的贡献，选择最适合的张量集以最小化训练成本，并实现 FLOPs 的减少，GreenTrainer 技术相较于整个 LLM 模型的精调可节省高达 64% 的 FLOPs，同时不会显著降低模型准确性，相较于现有的技术如 LoRa，GreenTrainer 能在 FLOPs 减少的同时提高 4% 的模型准确性。

Abstract

fine-tuning is the most effective way of adapting pre-trained large language models (LLMs) to downstream applications. With the fast growth of llm-enabled AI applications and democratization of open-souced LLMs,

fine-tuning llm green ai flops reduction model accuracy

发现论文，激发创造

绿色人工智能：探索大型语言模型训练中的碳足迹、减缓策略和权衡

该研究评估了大规模语言模型的二氧化碳排放，并提出减少碳排放的措施，探讨了硬件选择对二氧化碳排放的影响。基于结果，提出了培训更环境友好的人工智能模型的可能性，并认为可以在不牺牲其鲁棒性和性能的情况下实现。

Apr, 2024

保存全部：通过循环黑色梯度下降实现联邦大语言模型的全参数调优

该研究引入了一种名为 FedCyBGD 的新方法，利用 Cycle Block Gradient Descent 来高效地在联邦学习中训练和微调大语言模型，从而减少资源消耗，并取得了最先进的 FL LLM 训练表现。

Jun, 2024

语言模型的元学习在线适应

通过元学习的方法，提出了一种称为 Context-aware Meta-learned Loss Scaling (CaMeLS) 的在线微调算法，可以显著提高大语言模型对文本知识的保留能力。

May, 2023

大型语言模型的性能误区揭秘：微调与失败？

研究探讨了大型语言模型在细调、提取上下文数据和性能增强方面的影响，以及它们在多个领域的应用情况，并指出了细调模型在特定任务中性能下降的问题。

Jun, 2024

大型语言模型（LLM）在低资源环境中不同有效微调方法的比较分析

该研究探讨了大型语言模型的细调策略，发现可替代方法在领域外泛化方面与标准方法相媲美，强调了对有效提示的需求，并针对可用资源和任务适应性进行合适的细调方法选择。

May, 2024

在最边缘上的 LLM 联邦微调：好，坏，丑陋

通过硬件为中心的方法，本研究探讨了如何将大型语言模型 (LLMs) 应用于现代边缘计算系统，并使用联邦学习 (FL) 对 FLAN-T5 模型家族进行微调，以进行文本摘要任务。通过与数据中心 GPU 的比较，我们评估了边缘计算系统的当前能力以及它们在 LLM FL 工作负载方面的潜力，并展示了在边缘端实现更大计算效率的潜力与下一步的发展方向。

Oct, 2023

跨移动设备进行百亿规模语言模型的联邦微调

FwdLLM 是一种创新的 FL 协议，通过无需执行误差反向传播训练方法的方式，在手机设备上实现了更好的内存效率和时间效率，具有比传统方法更快的收敛速度和更小的内存占用。

Aug, 2023

提升大型语言模型性能以更准确地回答问题和提取信息

通过精调模型和对称相似度、LLM 评估和 Rouge-L 分数等指标的连续反馈循环来提高人工智能模型，利用金融数据集和检索增强生成技术 (RAG)，证明精调模型在问题回答能力方面能够超越零 - shot LLMs 的准确性。

Jan, 2024

调整困境：提高翻译质量而不牺牲 LLM 能力

微调大型语言模型对机器翻译的影响及保持翻译质量和翻译能力的需求。

May, 2024

前瞻思考：内存高效的联邦微调语言模型

Spry 是一种基于联邦学习的算法，用于在资源受限设备上进行大型语言模型的微调，以降低内存占用并提高准确性和收敛速度。

May, 2024