May, 2023

模型痴呆:生成数据使模型遗忘

TL;DR介绍了大型语言模型的发展并探讨了模型生成内容在训练中产生的影响,它导致原始内容分布的尾部消失并称之为模型失忆现象 (model dementia),此现象在各种生成模型中普遍存在,为了利用从网络中爬取的大规模数据所获得的收益,我们必须认真对待它。