Sep, 2024

关于大规模语言模型在问答任务中的微调的实证见解

TL;DR本研究针对大规模语言模型在问答任务中的微调策略这一尚未充分探索的问题,提出了一种基于预训练模型记忆知识程度对监督微调数据进行分类的方法。研究发现,在微调阶段仅需60个数据点即可激活预训练中编码的知识,且不同记忆水平的数据对模型性能有显著影响,具体最佳数据集因模型而异。