Oct, 2021

没有一种表示能够掌握所有知识:训练方法的重叠特征

TL;DR通过对超参、架构、框架和数据集进行大规模实证研究,我们发现训练方法的差异会导致模型产生不同的泛化行为,从而在子域中表现更好,与其他模型的错误更不相关。这种多样性可以提高集成表现,并且连低准确度的模型也可以用来提高高准确度的模型。此外,我们发现训练方法的差异会使表示捕捉到有重叠但不是超集的特征集,将其结合可以提高下游性能。