面向预训练代码模型的高效微调:实验研究及其发展方向
通过使用 BERT 来验证,文章研究了当使用大规模未标注文本语料库进行预训练的语言模型进行轻量级有监督微调以学习任务时,微调只在参数空间中引入了轻微的差异,可以通过对预训练参数的某些层的特定数量的条目设置为零来达到对巨大语言模型的精细调节,从而节省了任务特定参数存储和计算成本的开销。
Apr, 2020
本文介绍了针对代码的预训练模型参数高效微调的适配器和 LoRA 两种方法,经过四项代码处理任务测试,发现这些高效微调方法在代码理解任务中可以实现可比或更高的性能,但在代码生成任务中性能不如标准的全微调。这些结果强调了在其他领域测试高效微调方法的重要性,并促进了对源代码高效微调的未来研究。
Dec, 2022
本文探讨评估 Transformer 模型微调来进行个性化编码生成,考虑三种方法:(i)自定义微调,(ii)轻量级微调,(iii)前缀微调,比较它们的效果和成本效益。
Aug, 2022
研究表明,微调 BERT 模型会显著影响其顶部层的表示,尤其是依赖解析涉及模型的大部分,而 SQuAD 和 MNLI 涉及的则较浅。此外,在域外句子的表示方面,微调的影响较弱,这表明模型泛化有待改进。
Apr, 2020
通过大量的代码数据进行编码表示学习,使用两阶段的预训练方案以及对比学习的方式增强表示,在各种下游任务上持续显著地超过现有的模型,详细讨论了源代码的自定义和有效的令牌级去噪方案、硬负样本与硬正样本的重要性、提出的双模态对比学习如何提升跨语义搜索性能以及预训练方案对模型规模决定下游任务性能的影响。
Feb, 2024
基于 Transformer 模型的代码 - 文本检索问题上,我们提出了一种使用参数高效微调技术的微调框架,并采用对比学习目标来改善 Transformer 模型学习到的双模态表示质量。通过在两个数据集上对 CodeT5 + 模型进行全面实验,我们证明了该微调框架有潜力通过微调最多 0.4%的参数来提高代码 - 文本检索性能。
May, 2024
本文研究使用预训练的 transformer-based 语言模型 BERT 和 RoBERTa 在文本关系、语义相似性、情感分析和语言可接受性等标准任务中微调不同层数的效果,结果表明微调最后一层的四分之一即可达到 90% 的原始质量,微调所有层并不总是有更好的效果。
Nov, 2019
研究表明预训练模型在很多代码智能任务中具有很好的效果,但由于不同形式的输入难以完全利用预训练模型的知识,这篇论文通过在代码智能任务中进行提示调整,探索它对模型性能和低资源情况的影响,实验表明相对于微调,提示调整在三项代码智能任务中都能实现更好的表现,特别是在低资源情况下表现更为优秀。
Jul, 2022
为适应新任务,研究发现只对神经语言编码器的部分层进行微调就足以获得接近甚至更好的性能,提出一种基于 Fisher 信息矩阵对候选层进行选择的高效度量指标,并通过在不同语言编码器和任务上的实验证明该指标能够有效选择层以获得强大的下游性能。
Oct, 2023
通过对语言模型推理过程进行语义分析,我们提出了在层级上进行参数微调的方法,通过估计每个模型层的微调效果以及缩小微调的范围,我们的方法在 LM 微调中表现出有效且高效的特点。
Jun, 2024