Sep, 2024

Booster:通过减轻有害扰动来应对大型语言模型的有害微调

TL;DR本研究针对大型语言模型的有害微调问题,提出了一种新颖的解决方案。通过引入对抗性损失正则化,减轻有害扰动对微调过程的影响,实验证明该方法在降低有害评分的同时,保持了下游任务的性能。