充分利用您的模型:微调和应用预训练变换器的方法
自然语言处理的进展主要归功于模型架构和预训练的进步,Transformer架构为构建更高性能的模型提供了便利,预训练使得这些模型能够在各种任务中被有效利用。Transformers是一个旨在向更广泛的机器学习社区推广这些进展的开源库,库中包含一系列经过精心设计的Transformer架构和社区制作和提供的预训练模型,并且旨在为研究人员提供可扩展性、为从业者提供简便性、为产业部署提供快速和稳健性。
Oct, 2019
本文提出了一种有效的预训练语言模型利用方法,其中利用二进制选择性蒙版来代替微调的方法对预训练权重进行修改。对Bert和Roberta模型进行掩模和微调的广泛评估表明,我们的掩模方案在执行多个任务时具有可比性的性能,却具有更小的内存占用。通过本文内在评估,我们展示了由掩模语言模型计算的表征编码了解决下游任务所需的信息。分析损失景观,我们展示了掩蔽和微调能够生成几乎具有恒定测试准确度的线段相连的值,证实了掩蔽是微调的有效替代方法。
Apr, 2020
介绍了 BitFit 方法,该方法在模型的偏置项(或其中的子集)被修改时进行了稀疏微调。使用小到中等规模的训练数据,将 BitFit 应用于预训练的 BERT 模型与整个模型微调相比具有竞争力(有时甚至更优)。对于更大的数据,该方法与其他稀疏微调方法具有竞争力。此外,这些发现与理解微调的常用过程的问题相关,他们支持这样的假设:微调主要是关于展示由语言建模训练产生的知识,而不是学习新的任务特定的语言知识。
Jun, 2021
本篇论文提出一种基于自编码器和预训练transformer语言模型的文本表示学习方法,通过只训练句子编码和单层transformer解码器,获取良好的句子表示,超过了使用预训练transformer模型在各类文本任务中的表现,且参数规模更小。
Aug, 2021
通过搜索一种更高效的变体,即 Primer,我们旨在降低 Transformer 模型的训练和推理成本,并且我们证实 Primer 可以在不添加额外调整的情况下显著加快训练速度。
Sep, 2021
本文介绍了使用预训练和微调、提示或文本生成方法解决NLP任务的大型预训练基于transformer的语言模型,以及使用预训练语言模型生成数据进行训练或其他目的的方法,并讨论未来研究的限制和建议方向。
Nov, 2021
Transformer Grammars是一种新颖的语言模型,通过特殊的注意力掩码和确定性转换实现递归句法组合,提高了句子级别和句法敏感的语言建模性能,在长文本建模中,递归的句法组合对表示整个句子向量造成了瓶颈并影响了逼近度,表明一个独立于组合句法表示的不同类型的记忆机制在当前成功的模型中发挥了重要作用。
Mar, 2022
本文对三种基于Transformer的预训练语言模型(BERT、GPT-2和T5)进行了鲁棒性测试,并比较了它们在多种输入扰动下的性能表现。同时,使用CKA和STIR两个度量衡量了预训练模型与微调模型在各层上的表示变化。其中,GPT-2表现出更好的鲁棒性。尽管这些模型都具有广泛的鲁棒性,但丢失名词、动词或改变字符是最具影响力的。这项研究为流行的基于Transformer的模型的扰动特异性弱点提供了宝贵的见解。
May, 2023
通过在推论阶段使用高效解码算法并在训练阶段提炼质量收益,提出了MBR(最小贝叶斯风险)微调和QE(质量评估)微调方法,通过使用自我训练模型和外部LLM(语言模型)作为教师模型,这些微调方法在自然语言生成(NLG)任务中达到了比人生成参考文献更好的结果,且能保持推论过程的高效性。
Sep, 2023
介绍了Transformer基本概念,描述了标准Transformer架构,包括一系列模型细化和常见应用,主要关注有助于理解Transformer及其变体的概念和对该领域产生影响的关键思想,从而揭示了这些模型的优势和局限性。
Nov, 2023