adversarial training framework | BriefGPT

关键词adversarial training framework

搜索结果 - 4

R.A.C.E.：强健的对抗概念擦除用于安全的文本到图像扩散模型
为应对生成敏感内容的风险，本研究提出了一种新方法 Robust Adversarial Concept Erase (RACE)，通过增强概念抹除方法的鲁棒性，显著降低了对抗性文本嵌入的攻击成功率，成功减少了 “裸露” 概念攻击的 ASR
PDFa month ago
特征图级别在线对抗知识蒸馏
本文提出了一种在线知识蒸馏方法，在对抗训练框架下同时传输分类概率和特征图的知识，并使用判别器区分不同网络的特征图分布进行训练，比传统的直接对齐方法（如 L1）更适用于在线蒸馏，在多个网络之间引入循环学习方案，实验表明该方法的性能显著提高，特
PDF4 years ago
多尺度匹配的社区问题回答选择对抗训练
本研究提出了一种针对社区问答的二分类（相关 / 不相关）策略，采用敌对训练框架缓解标签失衡问题，并使用生成模型迭代地抽样一组具有挑战性的负样本，最终提高模型预测性能。此外，我们使用多尺度匹配方法显式地检查不同粒度级别的单词和 ngram 之
PDF6 years ago
ICLR能量基生成对抗网络的校准
本文提出了一种在生成对抗网络中产生直接能量估计样本的方法，并证明该方法不仅可以确保生成器收敛到真实数据分布，而且还能使辨别器在全局最优时保留密度信息。我们推导出所引入解决方案的解析形式，并分析其性质。为了使所提出的框架在实践中可训练，我们引
PDF7 years ago