Nov, 2019

如何操作?在 Transformer 微调期间冻结图层

TL;DR本文研究使用预训练的 transformer-based 语言模型 BERT 和 RoBERTa 在文本关系、语义相似性、情感分析和语言可接受性等标准任务中微调不同层数的效果,结果表明微调最后一层的四分之一即可达到 90% 的原始质量,微调所有层并不总是有更好的效果。