ICMLJul, 2021

不要掩盖学习率:预训练变压器的跨模态传递

TL;DR通过自监督预训练大规模 Transformer 模型,并在语料库上微调,已经在许多自然语言处理任务中实现了最先进的结果,但在模型的超参数调整方面仍需要小心谨慎。