Dec, 2023

MosaicBERT:用于快速预训练优化的双向编码器

TL;DRMosaicBERT是一种优化用于快速预训练的BERT风格编码器架构和训练方法,包括FlashAttention、ALiBi、GLU、动态去除填充令牌的模块和低精度LayerNorm等,基于C4数据集,该基础模型在8个A100 80GB GPU上以1.13小时的时间和约20美元的成本实现79.6的平均GLUE(dev)得分,相比竞争的BERT模型具有稳定的 Pareto 最优性。