Mar, 2025
稀疏自编码器作为零样本分类器用于文本到图像扩散模型中的概念抹除
Sparse Autoencoder as a Zero-Shot Classifier for Concept Erasing in
Text-to-Image Diffusion Models
TL;DR本研究解决了文本到图像扩散模型在生成有害或误导性内容时面临的概念抹除问题。提出的“解释后停用”(ItD)框架通过稀疏自编码器实现了精确的概念移除,同时保持了生成性能。实验结果表明,ItD能够有效消除目标概念而不干扰正常的概念生成,且对抗性提示也具备鲁棒性。