Jul, 2022

缩放定律与模型架构:归纳偏置如何影响缩放?

TL;DR本文通过系统研究了 Transformer、Switch Transformers、Universal Transformers、Dynamic convolutions、Performers 和 MLP-Mixers 等十个不同的模型架构的可扩展性行为,发现架构是进行扩展化的重要考虑因素之一,最佳表现的模型在不同尺度下可能会波动,并对如何评估模型架构在社区中的重要性具有重要影响。