Feb, 2024

模拟过参数化

TL;DR在这项研究中,我们介绍了一种名为模拟超参数化(SOP)的新范式。SOP 将紧凑模型的计算效率与超参数化模型的先进学习能力相结合,提出了一种独特的模型训练和推断方法。我们提出了一种与主流架构(包括 Transformer 模型)无缝集成的架构无关算法 “majority kernels”,该算法使得模拟超参数化模型的训练,在各种数据集和模型上表现出强大的性能,并在训练时间中增加了最小的开销。