关键词adversarial training framework
搜索结果 - 4
- R.A.C.E.:强健的对抗概念擦除用于安全的文本到图像扩散模型
为应对生成敏感内容的风险,本研究提出了一种新方法 Robust Adversarial Concept Erase (RACE),通过增强概念抹除方法的鲁棒性,显著降低了对抗性文本嵌入的攻击成功率,成功减少了 “裸露” 概念攻击的 ASR - 特征图级别在线对抗知识蒸馏
本文提出了一种在线知识蒸馏方法,在对抗训练框架下同时传输分类概率和特征图的知识,并使用判别器区分不同网络的特征图分布进行训练,比传统的直接对齐方法(如 L1)更适用于在线蒸馏,在多个网络之间引入循环学习方案,实验表明该方法的性能显著提高,特 - 多尺度匹配的社区问题回答选择对抗训练
本研究提出了一种针对社区问答的二分类(相关 / 不相关)策略,采用敌对训练框架缓解标签失衡问题,并使用生成模型迭代地抽样一组具有挑战性的负样本,最终提高模型预测性能。此外,我们使用多尺度匹配方法显式地检查不同粒度级别的单词和 ngram 之 - ICLR能量基生成对抗网络的校准
本文提出了一种在生成对抗网络中产生直接能量估计样本的方法,并证明该方法不仅可以确保生成器收敛到真实数据分布,而且还能使辨别器在全局最优时保留密度信息。我们推导出所引入解决方案的解析形式,并分析其性质。为了使所提出的框架在实践中可训练,我们引