NEFTune: 噪声嵌入改善指令微调

Oct, 2023

NEFTune: Noisy Embeddings Improve Instruction Finetuning

Neel Jain, Ping-yeh Chiang, Yuxin Wen, John Kirchenbauer, Hong-Min Chu...

TL;DR使用简单的增强方法 NEFTune，对语言模型进行细调可以显著提高性能，在 AlpacaEval 测试中，LLaMA-2-7B 的标准细调结果为 29.79%，而使用带有噪声的嵌入向量增强后提高至 64.69%。NEFTune 还在现代指令数据集上改进了强基准模型，在 Evol-Instruct 数据集上提高了 10%，在 ShareGPT 上提高了 8%，在 OpenPlatypus 上也提高了 8%。对于使用 RLHF 进一步优化的强大模型（如 LLaMA-2-Chat），通过 NEFTune 进行额外训练也带来了益处。

Abstract

We show that language model finetuning can be improved, sometimes dramatically, with a simple augmentation. neftune adds noise to the embedding vectors during training. Standard finetuning of LLaMA-2-7B using Alp

language model finetuning neftune embedding vectors alpacaeval instruction datasets

发现论文，激发创造

SymNoise：使用对称噪声提升语言模型微调技术

该研究介绍了一种新颖的语言模型微调技术，通过在嵌入过程中引入对称噪声，以更严格地调节局部曲率，提升模型的性能。通过使用对称噪声嵌入，该方法在 Alpaca 数据集上将 LLaMA-2-7B 模型的得分从 29.79% 显著提高到 69.04%，相比 NEFTune 方法（64.69%），有了 6.7% 的改进。此外，SymNoise 方法在多个模型和更强基线指令数据集上的表现均优于 NEFTune。该研究还强调了基于噪声策略进行语言模型微调的更深入研究的重要性。SymNoise 方法是朝着这个方向迈出的又一重要步骤，并且相对于现有的最先进方法有显著的改进。

Dec, 2023

NoisyTune：加入少量噪声能更好地微调预训练语言模型

该研究旨在提出一种简单而有效的方法名为 NoisyTune，通过在微调之前为 PLMs 的参数添加一些噪声来帮助更好地微调 PLMs，在 GLUE 英语基准和 XTREME 多语言基准上进行的广泛实验表明 NoisyTune 可以持续增强不同 PLMs 在不同下游任务的微调。

Feb, 2022

通过外部引导对预训练语言模型进行噪声抗干扰微调

使用嘈杂标签，通过引导大型语言模型来提高预训练语言模型（PLM）的微调过程，以区分干净样本和嘈杂样本，并提供嘈杂标签之外的辅助信息，从而增强学习过程。

Nov, 2023

评估语言模型的零样本鲁棒性

本研究提出了一种简单的方法来提高指导微调模型的鲁棒性，即通过引入 “软提示” 嵌入参数并优化这些参数来最大化语义等效说明的表示之间的相似性。

Jun, 2023

精调语言模型是零 - shot 学习器

通过对自然语言指令模板中的 60 个自然语言处理任务进行调整，我们将一个 137B 预训练语言模型调整为 FLAN 并在未看见的任务数据上进行评估，结果表明，通过指令调整，可以大大改善它在未看见任务上的性能并在 20 个任务上超越了 175B GPT-3 的零样本性能。

Sep, 2021

爱丁堡临床自然语言处理在 SemEval-2024 任务 2 中：在没有使用 GPT-4 的情况下优化您的模型

通过合并使用三元组和语言建模目标单独进行微调的适配器，提出了一种用于改进大型语言模型（LLMs）一致性的 PEFT 方法。然而，与 GPT-4 相比，我们的新方法在忠实度和一致性方面没有产生更准确的结果。综合三个度量指标，GPT-4 在比赛中以 0.8328 的分数并列第一。最后，通过与 GPT-4 的污染分析，表明没有测试数据泄露。

Mar, 2024

针对检索任务的细化联合文本和源代码嵌入优化与参数高效微调

基于 Transformer 模型的代码 - 文本检索问题上，我们提出了一种使用参数高效微调技术的微调框架，并采用对比学习目标来改善 Transformer 模型学习到的双模态表示质量。通过在两个数据集上对 CodeT5 + 模型进行全面实验，我们证明了该微调框架有潜力通过微调最多 0.4％的参数来提高代码 - 文本检索性能。

May, 2024

使用噪声对比估计学习神经跨维度随机场语言模型

本文提出了几种技术来提高神经随机场语言模型 (TRF LMs) 的训练效率和性能。这些技术包括参数估计和模型构建等，采用这些技术可以成功地、高效地训练神经 TRF LMs，并且在强 LSTM LM 基线的基础上将 WER 相对降低了 4.7% 左右。

Oct, 2017

非侵入式调整：面向输入的参数高效微调用于多模态建模

参数效率微调（PEFT）是应对大型语言模型的适应和服务挑战的一种有前景的方法，本研究中描述了一种非侵入式的 PEFT 技术 AdaLink，并在各种任务中与最先进的侵入式 PEFT（LoRA）和全模型微调（FT）相比表现出有竞争力的性能。

Oct, 2023

借助微调的语言模型和提示工程增强零样本加密货币情绪分析

区块链技术在金融领域产生了革命性影响，通过分散化和透明性，加密货币得到了广泛采用。本文旨在增强加密货币领域情感分析的准确性，研究了对大型语言模型的微调技术。实验结果表明，微调后的模型平均零射击性能提升了 40%，彰显了优化预训练语言模型效率的潜力。此外，本文还探讨了指令微调对不同规模模型的影响，发现较大规模的模型从指令微调中受益，实现了最高平均准确率为 75.16%。相比之下，较小规模的模型由于完全利用模型容量可能出现降低泛化能力的情况。通过实验调查，本文呈现了指令模型在不同指令微调设置下的响应情况，实验结果显示，对于简短简单的指令，模型平均准确率达到了 72.38%。相比之下，针对长且复杂指令，模型的准确率提高了 12%，有效突显了指令特征在提升模型性能方面的重要性。

Oct, 2023