Jul, 2024

Badllama 3:将安全微调从 Llama 3 中移除的方法(仅需几分钟)

TL;DR我们展示了当攻击者可以获取模型权重时,LLM 安全微调很容易被规避。我们评估了三种最先进的微调方法 - QLoRA,ReFT 和 Ortho,并展示了算法进步如何在 FLOPs 和优化能力的削减情况下实现恒定的越狱性能。我们在一分钟内从 Llama 3 8B 中剥离了安全微调,在 30 分钟内从 Llama 3 70B 中剥离,而且我们还勾勒了进一步减少这种情况的方法。