Mar, 2024

知识复苏:通过结构化训练实现对灾难干扰的预期恢复

TL;DR我们研究了神经网络在结构化非独立同分布的设置中的训练动力学,其中文档以固定的重复顺序周期性呈现。我们发现了一个有趣而引人注目的 LML 在此设置中顺序微调的性质:它们表现出预期的行为,在再次遇到文档之前从遗忘中恢复。这种行为出现并随着架构规模的增加而变得更加稳健。通过全面的实验证明和可视化,我们揭示了在结构化环境中过参数化网络的训练中的新见解。