Feb, 2024

神经网络学习逐渐复杂的统计规律

TL;DR该研究指出神经网络首先学习数据分布的低阶矩,然后再学习高阶相关性。通过实验证据,证明了神经网络在训练早期会自动学习以最大熵分布为基础的低阶统计信息,但训练后期会失去这种能力。该研究还将分布简易偏差扩展到离散领域,并通过证明 Token 的 n-gram 频率与嵌入向量矩的等价性以及在 LLMs 中找到的实证证据,证明了该偏差。最后,研究利用最优运输方法对某一类的低阶统计信息进行手术式编辑,使其与目标类的统计信息相匹配,并展示了早期训练的网络将编辑后的样本视为从目标类中抽取的样本。