本文介绍了一种名为 LEAst-squares Concept Erasure (LEACE) 的闭合形式方法,它可用于提高模型的公平性和可解释性,在大型语言模型中应用了 concept scrubbing 技术,以消除目标概念信息并降低 BERT 嵌入中的性别偏见。
Jun, 2023
为应对生成敏感内容的风险,本研究提出了一种新方法 Robust Adversarial Concept Erase (RACE),通过增强概念抹除方法的鲁棒性,显著降低了对抗性文本嵌入的攻击成功率,成功减少了 “裸露” 概念攻击的 ASR 攻击率 30 个百分点,并在对抗白盒与黑盒攻击中展现了有效性,为保护文本到图像扩散模型免受生成不当或误导性图像的需求提供了明显进展,并强调了积极防御措施在适应快速发展的对抗性挑战领域中的重要性。
May, 2024
从文本到图像生成模型到 AI 安全的概念消除方法,这篇论文研究了五种最近提出的概念消除方法,并展示了这些方法中没有一个能完全抹除目标概念,并通过利用特殊的学习词嵌入证明了目标概念可以从消除后的模型中找回,这突显了事后概念消除方法的脆弱性,并对其在 AI 安全算法工具箱中的使用产生了质疑。
Aug, 2023
我们提出了一种可分离的多概念擦除(SepME)方法,包括概念无关表示的生成和权重解耦,用于解决大规模扩散模型中的版权问题和概念恢复问题。通过其他已知不良概念计算的解决方案的线性组合,我们的方法在去除概念、保留模型性能以及灵活擦除或恢复各种概念方面具有良好的效果。
Feb, 2024
通过更新文本编码器使用少量真实图像,我们提出了一种新颖的概念擦除方法,可以在 10 秒内擦除概念,实现了比当前方法快数十到数百倍的概念擦除,隐含地过渡到相关概念,实现更自然的概念擦除。
我们提出了一种名为 EMCID 的两阶段方法,用于在大规模实际场景中同时解决文本到图像扩散模型生成过时、受版权限制、错误和带有偏见的内容的问题。通过对每个个体概念进行双自对齐损失和扩散噪声预测损失的记忆优化,第一阶段实现了内存优化;第二阶段通过多层闭合模型编辑进行大规模概念编辑。我们还提出了一个名为 ImageNet Concept Editing Benchmark(ICEB)的全面评估基准,用于评估 T2I 模型的大规模概念编辑,包括自由形式提示、大规模概念类别和广泛的评估指标。在我们提出的基准和之前的基准上进行的大量实验表明,EMCID 具有卓越的可扩展性,可以编辑多达 1000 个概念,为在实际应用中快速调整和重新部署 T2I 扩散模型提供了实用方法。
Mar, 2024
通过手术更新分类器导向项、限制无条件得分项的变化,以及赋予用户选择擦除概念的替代方案的能力,我们提出了一种能够有效擦除目标概念并保留生成能力的新方法。
Dec, 2023
通过基于一维适配器的擦除框架和新颖的潜在锚定微调策略,实现了对大多数扩散模型进行多概念擦除的无侵入、精确、可定制和可传输的消除。
提出了一种通过线性极小极大博弈模型来定位和清空文本中的线性子空间,以防止线性预测器恢复与偏见相关的概念,该方法可以减轻内在和外在因素造成的偏见。
Jan, 2022
大型语言模型(LLMs)用于各种任务,但其输出可能包含有害信息、种族主义或性别歧视性语言以及幻觉。因此,我们提出了一种新的激活工程方法,即 Parsimonious Concept Engineering(PaCE),通过构建一个概念字典来准确表示 LLMs 的激活,并通过稀疏编码从激活中去除有害组件,以实现与对齐目标的一致行为。通过进行实验,我们展示了 PaCE 在响应解毒、忠诚度提升和情感修订等任务上达到了最先进的对齐性能,并保持了语言能力。
Jun, 2024