Jun, 2021

重新审视模型拼接以比较神经表示

TL;DR本文重新审视和扩展了模型拼接的方法,通过将训练好的两个模型 A 和 B 底层连接到顶层,并在它们之间加入一个简单的可训练层来形成一个 “拼接模型”,揭示了多方面的表示属性。通过大量实验证明,“好” 的网络学习相似的表示,更多的数据,更大的宽度或更多的训练时间可以 “插入” 到较弱的模型中以提高性能。此外,我们还展示了 SGD 的一个新的结构特性,称为 “缝合连接”,类似于模式连接,SGD 达到的典型最小值可以通过最小的精度变化缝合在一起。