Mar, 2024

通过代码探索大型语言模型的安全泛化挑战

TL;DR通过将自然语言输入转化为代码输入,CodeAttack框架揭示了大型语言模型的安全泛化性问题,并发现了代码领域中的新安全风险,需要更健壮的安全对齐算法来匹配大型语言模型的代码功能。