ACLDec, 2020

在小数据集上优化深度 Transformer

TL;DR本文指出对于少量数据集的挑战性任务,如文本到 SQL 语义解析和逻辑阅读理解等,使用预训练模型进行微调是不必要的。通过新型数据依赖 Transformer 固定更新初始化方案(DT-Fixup),我们成功训练了由 48 个 transformers 层组成的模型,在无具体预训练的情况下,只需少量的训练步骤,就可以在挑战性的交叉领域文本到 SQL 解析基准 Spider 上实现最先进的性能。