Mar, 2023

稀疏 Iso-FLOP 变换以最大化训练效率

TL;DR通过引入一种基于单一超参数的稀疏 Iso-FLOP 变换族,本文试图使用稀疏性提高密集模型的准确性和 FLOP 效率,实现不更改任何训练超参数而在计算机视觉和自然语言处理任务中获得显著的提高,例如 ResNet-18 在 ImageNet 上提高了 3.5%,GPT-3 Small on WikiText-103 下降了 0.4 个 PPL,并在不增加 FLOPs 的前提下,与使用 2 倍或更多 FLOPs 的大型密集模型变体相匹配。