Jan, 2024

任务结构和非线性性共同决定了学习到的表征几何

TL;DR通过研究具有一个隐藏层的网络的学习动态,我们发现网络的激活函数对于表示几何的影响强于预期:Tanh 网络倾向于学习反映目标输出结构的表示,而 ReLU 网络保留了更多关于原始输入结构的信息。这种差异在广泛的参数化任务中一直存在,我们在这些任务中调节任务输入的几何与任务标签的对齐程度。我们通过分析权重空间中的学习动态,说明了 Tanh 和 ReLU 非线性网络之间的差异是由于 ReLU 的非对称渐近行为导致的,这导致特征神经元专门针对输入空间的不同区域。相比之下,Tanh 网络中的特征神经元倾向于继承任务标签结构。因此,当目标输出是低维时,Tanh 网络生成的神经表示比采用 ReLU 非线性的表示更具解耦性。我们的发现揭示了神经网络中输入输出几何、非线性和学习表示之间的相互作用。