Jun, 2024

基于嵌入的对抗性消除指令调整语言模型中的安全后门

TL;DR通过遗传嵌入干扰的方式,BEEAR方法能够有效减少在大型语言模型中的安全后门攻击,从而提升人工智能的安全性。