Sep, 2023

通过隐式推理理解语言模型中的灾难性遗忘

TL;DR微调语言模型会在特定任务上产生性能提升,但对其他任务可能造成能力抑制。为了恢复预训练能力,通过对任务进行翻译使其远离语言模型微调分布,发现可以恢复上下文学习能力,并使聊天机器人生成有害内容。