评估医疗 LLM 的微调策略：全参数 vs. 参数高效方法

AAAIApr, 2024

评估医疗 LLM 的微调策略：全参数 vs. 参数高效方法

Med42 -- Evaluating Fine-Tuning Strategies for Medical LLMs: Full-Parameter vs. Parameter-Efficient Approaches

Clément Christophe, Praveen K Kanithi, Prateek Munjal, Tathagata Raha, Nasir Hayat...

TL;DR该研究对两种主要的微调方法 —— 全参数微调和参数高效微调 —— 在医学大型语言模型（LLM）领域进行了全面的分析和比较。通过开发和优化一系列基于 Llama-2 架构的医学 LLM，从而提升医学知识检索、推理和问答的能力，我们系统地评估了这些微调策略在各种知名医学基准测试上的有效性。值得注意的是，我们的医学 LLM Med42 在美国医学执照考试（USMLE）数据集上表现出了 72% 的准确率，为公开可用的医学 LLM 性能树立了新的标准。通过这种比较分析，我们旨在找到医学领域 LLM 微调的最有效和高效方法，从而在推动以人工智能驱动的医疗应用方面做出重大贡献。

Abstract

This study presents a comprehensive analysis and comparison of two predominant fine-tuning methodologies - full-parameter fine-tuning and paramet

fine-tuning methodologies full-parameter fine-tuning parameter-efficient tuning medical large language models ai-driven healthcare applications

发现论文，激发创造

LLMs 在医学多模态领域的调整方法是否有效？

通过对大型语言模型（LLMs）的精确调整和创新的参数高效微调（PEFT）方法的研究实验，本研究探讨了大型模型的微调方法对医疗领域的多模态模型的影响，并发展了最有效的医疗 VLP 模型微调方式，以指导医疗领域研究人员优化 VLM 的训练成本，促进其在医疗保健领域的更广泛应用。

Mar, 2024

PeFoMed: 多模态大语言模型的参数高效微调在医学视觉问答中的应用

这篇论文提出了一个参数高效的框架，专门用于调整针对 Med-VQA 应用的多模式大型语言模型，并通过公共基准数据集进行了实证验证，结果显示我们的模型在封闭问题上的整体准确率达到了 81.9％，并且在准确率上超过 GPT-4v 模型 26％的显著优势。

Jan, 2024

MAPLE: 多语言大语言模型参数高效微调的评估

通过参数高效微调能够提高大语言模型的性能，而无需大量的资源和计算。对多语言评估的先前研究表明，英语和其他语言在性能上存在很大差距。此外，开源模型和较大规模的语言模型之间也存在差距。微调是弥合差距、使语言模型更加公平的有效方法。本研究通过对合成多语言指示微调数据上进行 LLaMA-7B 和 Mistral-7B 模型的微调，以评估其对模型在涵盖 23 种语言的五个下游任务上的性能影响。此外，我们还在低秩适应的等级和量化值上进行了实验，以确定它们对下游性能的影响并发现较高的等级和量化值有益于低资源语言。我们发现通过参数高效微调较小的开源模型有时可以弥合这些模型和较大模型性能之间的差距，但对英语性能有所降低。我们还发现微调有时可以提高低资源语言的性能，但在高资源语言上性能可能会下降。

Jan, 2024

基于层裁剪的医疗报告摘要和医学对话生成参数高效微调

本文介绍了一个包含 LoRA 和结构化层剪枝的模型微调框架，用于对医学报告进行摘要提取，并且该框架可以通过微调少量参数和剪枝一部分 Transformer 层，加速了训练速度，减少 GPU 内存的使用，并且保持自由文本生成质量的同时，提高了模型的效率和效益。

May, 2023

多模态大语言模型参数高效微调的实证研究

使用四种常见的 PEFT 方法对开源 MLLMs 的 LLM 组件进行微调，比较它们在参数效率方面的表现，结果显示 adapter 是效果最好的 PEFT 方法。

Jun, 2024

QFT：量子化的低资源 LLM 全参数调整

提出了一种名为 QFT 的新型量化全参数调优框架，可以实现内存高效调优而不损害性能。该框架采用高效的 Lion 优化器和整数值量化的模型状态存储方法，并提供了梯度流和参数更新方案。结果表明，QFT 将模型状态内存减少到标准解决方案的 21%，同时达到可比较的性能，例如，调优 LLaMA-7B 模型仅需 30GB 内存，一张 A6000 GPU 即可满足。

Oct, 2023

当扩展与 LLM 微调相遇：数据、模型和微调方法的影响

大语言模型的微调方法的缩放因子对模型性能的影响的系统实验结果表明，LLM finetuning 遵循微调数据量与其他缩放因子之间的幂函数乘法联合缩放规律，LLM 模型尺寸的扩大比预训练数据尺寸的扩大对 finetuning 更有益处，而仅考虑参数缩放的效果通常并不明显，同时最优的 finetuning 方法与任务和微调数据相关联，这些结果对于选择和开发 LLM finetuning 方法具有指导意义。

Feb, 2024

在 LLMs 中平衡专业和通用技能：现代调谐和数据策略的影响

介绍了用于微调和评估大型语言模型（LLMs）用于专门的货币化任务的多方面方法论，目标是在一般语言能力和领域特定技能之间实现平衡。方法论有三个主要组成部分：1）在微调过程中精心混合领域内和通用数据，以实现一般能力和专业能力之间的最佳平衡；2）设计全面的评估框架，包含 45 个问题，旨在评估在功能相关维度（如可靠性、一致性和商业影响）上的表现；3）分析模型大小和持续训练对度量指标的影响，以指导在微调过程中的高效资源分配。本文详细介绍了所提出框架的设计、数据收集、分析技术和验证结果，旨在为企业和研究人员提供行动洞察，以有效地使 LLMs 适应专门的环境。我们还打算公开全面的评估框架，其中包括 45 个量身定制的问题及其相应的评分指南，以促进 LLMs 在专门任务上的透明度与合作。

Oct, 2023

大规模效率：探究微型语言模型在临床任务中的性能

对不同规模的模型以及临床决策任务的适用性进行研究，揭示大型语言模型的效果与 Parameter Efficient Fine-tuning 方法的关系，发现 LoRA 方法在各项任务和模型规模下都能保持较高的性能，专用模型在速度和训练成本上具有优越性，与大型基础语言模型相比效果更好，同时探讨了领域特定预训练与 PEFT 方法和模型规模之间的相互影响，以及提供最佳效率与性能平衡的因素。

Feb, 2024

MOELoRA：一种基于 MOE 的参数高效微调方法，适用于多任务医疗应用

我们提出了一种新颖的用于多任务医疗应用的参数高效微调框架 MOELoRA，通过 MOE 和 LoRA 的统一，利用多个专家作为可训练参数，并为各种任务生成不同的参数，以解决医疗场景中任务多样性和微调成本高昂的问题。我们的实验证明，MOELoRA 优于现有的参数高效微调方法。

Oct, 2023