Feb, 2023

有效语言模型预训练和下游适应的技巧:以 GLUE 为例的案例研究

TL;DR本文介绍了我们团队关于使用 Transformer 结合多种训练策略进行自监督预训练和微调,并在 GLUE 评测中取得了 4 项任务上的最优性能,其中 SST-2 和 WNLI 两项任务满足超越人类表现的要求。