Feb, 2023
有效语言模型预训练和下游适应的技巧:以 GLUE 为例的案例研究
Bag of Tricks for Effective Language Model Pretraining and Downstream Adaptation: A Case Study on GLUE
Qihuang Zhong, Liang Ding, Keqin Peng, Juhua Liu, Bo Du...
TL;DR本文介绍了我们团队关于使用 Transformer 结合多种训练策略进行自监督预训练和微调,并在 GLUE 评测中取得了 4 项任务上的最优性能,其中 SST-2 和 WNLI 两项任务满足超越人类表现的要求。