Apr, 2024

HFT: 大型语言模型的半微调

TL;DR通过定期重置部分参数,半精调可以恢复一些原始知识,并且在大规模语言模型中减轻了遗忘问题,同时在一系列下游基准测试中取得了最佳性能。