BriefGPT.xyz
Mar, 2025
TRCE:朝着文本到图像扩散模型中可靠的恶意概念消除
TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models
HTML
PDF
Ruidong Chen, Honglin Guo, Lanjun Wang, Chenyu Zhang, Weizhi Nie...
TL;DR
本研究针对文本到图像扩散模型中存在的恶意内容生成问题,提出TRCE方法,采用双阶段概念消除策略,有效实现可靠的消除与知识保留之间的平衡。研究结果表明,TRCE能够有效去除潜在的恶意概念,同时更好地保留模型的生成能力,具有重要的应用价值。
Abstract
Recent advances in
text-to-image
diffusion models
enable photorealistic image generation, but they also risk producing
malicious content
,
→