Aug, 2024
阿穆罗与夏尔:分析大型语言模型的预训练与微调关系
Amuro & Char: Analyzing the Relationship between Pre-Training and
Fine-Tuning of Large Language Models
TL;DR本研究探讨了大型语言模型预训练和微调之间的关系,填补了该领域的知识空白。通过微调多个中间预训练模型检查点,发现持续预训练以潜在的方式提升模型性能,并且额外的微调对未展示能力的数据集影响显著。此研究的发现表明微调可能导致知识遗忘,但额外的预训练可以缓解模型对评估提示的敏感性。