Nov, 2024

梯度定位改善语言模型的终身预训练

TL;DR本研究解决了语言模型中知识局部化存储机制不明确的问题,尤其针对时间敏感实体的两种知识类型,发现它们在模型的不同参数集中定向存储。提出通过关注知识的局部性来改进连续学习方法,从而提高了对新信息的获取和减少了以往信息的灾难性遗忘,验证了在具有时间漂移的语言中,通过针对性更新相关层的参数可显著提升预训练性能。