Feb, 2024

模型坍塌的揭秘:回归案例

TL;DR基于 ChatGPT 等大规模语言模型的研究中,模型崩溃现象指的是当模型在逐步进行自身前代生成的数据递归训练时,其性能逐渐降低直至彻底无效化,即模型崩溃。本研究在核回归的简化环境中研究了这一现象,并得到了结果,证明了模型能应对虚假数据的临界点以及性能完全崩溃的情况。在多项式衰减光谱和源条件下,我们得到了展示快速到缓慢变化速率新临界点的修改缩放规律。同时,我们还提出了基于自适应正则化的简单策略来减轻模型崩溃的影响。我们的理论结果经过实验证实。