SuryaKiran 参加 MEDIQA-Sum 2023: 利用 LoRA 进行临床对话摘要
本研究通过使用 Parameter-Efficient Fine-Tuning 中的 Low-Rank Adaptation (LoRA) 探索了复杂且未被充分研究的多语言摘要任务的潜力,研究发现 LoRA 在低数据情况和跨语言转移中表现出色,当模型增大时,LoRA 和完全微调之间的性能差距减小,同时,继续训练 LoRA 获得了最佳的少样本跨语言转移表现。
Nov, 2023
通过有选择地微调部分参数以降低计算需求,提出了一种在临床领域中适应预训练语言模型的方法,并通过与 Downstream LLaMA-LoRA 相结合,在多个临床预测任务上取得了最先进的 AUROC 得分提升,并在大规模多标签分类任务中观察到 6-9% 的 AUROC 得分改善。
Jul, 2023
利用对比学习以鼓励专家学习不同特征的方式,我们介绍了一种新的参数效率微调方法 MoELoRA,它在数学推理和常识推理基准测试中表现显著优于 LoRA 和 GPT-3.5。
Feb, 2024
LoRA 是一种使用较少参数和内存的训练方法,研究表明,在低秩适配器的支持下,LoRA fine-tuned 模型在多个任务上表现超过基准模型 34 个百分点和 GPT-4 10 个百分点;此外,他们开发了 LoRAX 多模型推理服务器,支持多个 LoRA fine-tuned 模型在单个 GPU 上运行,以展示使用多个专用 LLM 相对于单个通用 LLM 的质量和成本效益。
Apr, 2024
通过实施共享低秩适应(ShareLoRA)的方式,本研究介绍了一种优化预训练语言模型(PLMs)的参数有效微调(PEFT)的方法。在不同层级上策略性地部署 ShareLoRA,并对 self-attention 层的 Query、Key 和 Value 组件进行适应性调整,我们实现了训练参数数量和内存使用的大幅减少。同时,ShareLoRA 不仅在 RoBERTa、GPT-2、LLaMA 和 LLaMA2 等多种模型上保持了模型性能,还在分类和生成任务中表现出鲁棒性。相比标准的 LoRA 应用,它表现出卓越的迁移学习能力,并通过在层级间共享权重来减轻过拟合。我们的发现证明,ShareLoRA 能够有效提升参数效率,同时在不同的语言模型架构上保证可扩展和高质量的性能。
Jun, 2024
通过一系列实验,我们发现了两个关键的见解,揭示了 LoRA 的训练和参数效率问题,基于这些见解,我们开发了 HydraLoRA,这是一个具有不对称结构的 LoRA 框架,消除了对领域专业知识的需求,我们的实验表明,HydraLoRA 优于其他 PEFT 方法,即使在训练和推断阶段依赖领域知识的情况下。
Apr, 2024
本文介绍了一个包含 LoRA 和结构化层剪枝的模型微调框架,用于对医学报告进行摘要提取,并且该框架可以通过微调少量参数和剪枝一部分 Transformer 层,加速了训练速度,减少 GPU 内存的使用,并且保持自由文本生成质量的同时,提高了模型的效率和效益。
May, 2023
本研究通过探索在语言任务中不同联邦学习设置中应用参数高效微调(PEFT)方法的机会和挑战,提出了一种名为 SLoRA 的方法,通过一种新颖的数据驱动初始化技术来克服在高异构数据环境中 LoRA 的关键限制,实现与全面微调可比的性能,并以大约 1% 的密度实现显著稀疏更新,同时将训练时间减少高达 90%。
Aug, 2023
通过结合基于不确定性的主动学习和 LoRA,本论文提出了一种新的方法,动态度量不确定性缺口且在 LoRA 训练中引入正则化方法,这种方法在三个复杂推理任务上优于现有的基线模型。
Mar, 2024