ICMLJul, 2021
不要掩盖学习率:预训练变压器的跨模态传递
Don't Sweep your Learning Rate under the Rug: A Closer Look at Cross-modal Transfer of Pretrained Transformers
Danielle Rothermel, Margaret Li, Tim Rocktäschel, Jakob Foerster
TL;DR通过自监督预训练大规模 Transformer 模型,并在语料库上微调,已经在许多自然语言处理任务中实现了最先进的结果,但在模型的超参数调整方面仍需要小心谨慎。