BriefGPT.xyz
Sep, 2024
Booster:通过减轻有害扰动来应对大型语言模型的有害微调
Booster: Tackling Harmful Fine-tuning for Large Language Models via Attenuating Harmful Perturbation
HTML
PDF
Tiansheng Huang, Sihao Hu, Fatih Ilhan, Selim Furkan Tekin, Ling Liu
TL;DR
本研究针对大型语言模型的有害微调问题,提出了一种新颖的解决方案。通过引入对抗性损失正则化,减轻有害扰动对微调过程的影响,实验证明该方法在降低有害评分的同时,保持了下游任务的性能。
Abstract
Harmful
Fine-tuning
issue \citep{qi2023fine} poses serious
Safety
concerns for
Large Language Models
'
→