Apr, 2020

微调可以有多精细?学习高效语言模型

TL;DR通过使用 BERT 来验证,文章研究了当使用大规模未标注文本语料库进行预训练的语言模型进行轻量级有监督微调以学习任务时,微调只在参数空间中引入了轻微的差异,可以通过对预训练参数的某些层的特定数量的条目设置为零来达到对巨大语言模型的精细调节,从而节省了任务特定参数存储和计算成本的开销。