Oct, 2024

扩散模型中的元忘却:防止重新学习已忘记的概念

TL;DR本研究解决了扩散模型(DMs)在释放后由于恶意微调而导致重新学习已忘记概念的问题。我们提出的元忘却方法使得即使在恶意微调的情况下,也能有效防止某些相关的无害概念触发重新学习,从而增强模型的安全性。实验结果验证了该方法在现有的忘却方案中具备良好的兼容性和有效性。