ACLMay, 2021

预训练的卷积神经网络是否比预训练的 Transformer 模型更好?

TL;DR本文对使用 CNN 和 Transformers 用于预训练语言模型的竞争性进行了研究,并在 8 个数据集 / 任务上进行了广泛的实验,发现 CNN 的预训练模型在某些情况下具有竞争力,并且在某些场景下胜过它们的 Transformers 对应物。总的来说,本文的结果表明,将预训练和架构进步混淆是片面的,应该将两方面的进步分别考虑。我们相信我们的研究为替代架构带来了足够的乐观情绪。