Jul, 2024

QUEEN: 模型抽取的查询反学习

TL;DRQUEEN 是一种针对模型提取攻击的反击方法,通过敏感度测量和输出扰动来限制潜在威胁的出现,并且在单个敏感的查询批次上应用查询去学习,以减少攻击的学习准确性。