Jun, 2024

基于通用表征的微调网络解决未知认知任务

TL;DR微调预训练语言模型在广泛的任务上展现出有希望的结果,但面对新任务时,它们更依赖于通用的预训练表示还是开发全新的任务特定解决方案?我们在一个与模型相关且来自神经科学文献的情境依赖决策任务上微调了 GPT-2,并将其性能和内部机制与从头开始训练的 GPT-2 版本进行了比较。我们的结果显示,微调模型在较后层次上严重依赖于预训练表示,而从头开始训练的模型则开发了不同、更具任务特定性的机制。这些发现突出了预训练在任务泛化中的优势和限制,并强调了进一步研究语言模型微调的任务特定机制的必要性。