- 面向联邦学习中高效且可验证的恶意攻击恢复
基于选择性信息存储和自适应模型回滚,我们引入了一种高效且可验证的恢复方法 Crab,能够在恶意攻击被检测出后快速恢复精确的全局模型,且在恢复速度和内存消耗方面持续优于先前的方法。
- 联邦蒸馏中的对数攻击
Federated Distillation (FD) 是一种新颖且有前景的分布式机器学习范式,其中利用知识蒸馏来促进更高效和灵活的跨设备知识传输。我们引入了一种为 FD 量身定制的攻击方法 FDLA,其通过操纵 FD 中的逻辑通信来显著降 - FedQV:在联邦学习中利用二次投票
提出了 FedQV,这是一个基于二次投票方案的新聚合算法,以解决联邦学习中的投毒攻击问题,并可以与拜占庭 - 鲁棒的隐私保护机制相结合,增强其对投毒和隐私攻击的鲁棒性。
- 在高维度中攻击拜占庭容错聚合
通过 HIDRA 攻击揭示了维度独立偏差的强防守的实际可能存在的漏洞,这对维度高的聚合算法设计提出了挑战,并暗示了这一领域中中毒攻击与可证明的防御之间的竞争仍然悬而未决。
- MISA:揭示分割联邦学习的漏洞
提出了一种名为 MISA 的新型中毒攻击,通过污染顶部和底部模型导致全局模型失调,最终导致显著的准确率下降。该攻击揭示了 Split Federated Learning 的漏洞,挑战了其对中毒攻击的鲁棒性的传统观念。广泛的实验证明了 MI - EdgePruner:图对比学习中的边缘修剪
提出了一种简单的 GCL 防御方法 EdgePruner,通过修剪对最小对比损失有贡献的边缘,消除了污染图对节点分类的负面影响,在六个数据集上提高了节点分类的准确性,并且对自适应攻击具有免疫力。
- 图神经网络的成本感知的无目标毒化攻击
我们提出了一种名为成本感知中毒攻击(CA-attack)的新型攻击损失框架,通过动态考虑节点的分类间距来改善攻击预算的分配,具体地,它优先处理具有较小正间距的节点,推后处理具有负间距的节点。我们的实验证明,所提出的 CA-attack 显著 - 强制生成模型退化:数据注毒攻击的力量
通过细粒度的实验,我们展示了在大语言模型的精调阶段仅仅使用总数据样本的 1% 即可成功地对大语言模型进行毒化,这是针对自然语言生成任务进行的首次系统性理解并考虑了多种触发方式和攻击设置的毒化攻击。
- FreqFed: 基于频率分析的联邦学习中缓解污染攻击的方法
FreqFed 是一种新颖的聚合机制,通过将模型更新转换到频域,可以有效过滤掉恶意攻击,无论攻击类型、策略和客户端数据分布,从而在不影响聚合模型的实用性的前提下有效缓解毒化攻击。
- PROFL:一种具有严格防毒攻击能力的隐私保护联邦学习方法
提出了一种基于双陷门附加同态加密算法和盲化技术的新型隐私保护拜占庭 - 鲁棒联邦学习框架 PROFL,通过安全的 Multi-Krum 算法和基于统计的隐私保护防御算法,PROFL 在用户级别和特征级别上分别消除恶意梯度和异常项干扰,提高了 - 对比推荐系统的毒化攻击
对比学习已经在推荐领域取得了显著的流行度,但本文发现基于对比学习的推荐系统存在一个更易受污染攻击的漏洞,并通过实验证明了这一攻击模型的破坏性,以促进更强大的对比学习推荐系统的发展。
- 理解亚群体对中毒攻击的敏感性变异
机器学习中的中毒攻击容易受到数据集可分离性和子群体属性的影响,本文通过实验发现了这些因素对不同子群体的有效性产生的影响,并且还发现了对某些语义相关的子群体具有易受攻击的特性。
- 关于使用人类反馈进行强化学习对大型语言模型的可利用性研究
通过 RankPoison 的毒化攻击生成带指定的恶意行为的污染数据集,可以对 LLMs 进行攻击,生成更长的令牌,而不损害原始安全对齐性能,这突显了 RLHF 中存在的关键安全挑战,强调了 LLMs 更强韧对齐方法的必要性。
- 毒物并非无迹:全无知晓检测毒物攻击
该论文提出了一种新颖的完全通用框架 DIVA(检测隐形攻击),它仅通过分析潜在的被污染数据集来检测攻击,应用于一般的污染攻击,并在此论文中测试了 DIVA 对标签翻转攻击的效果。
- 特定提示的文本到图像生成模型的毒化攻击
通过对海量训练数据集的文本到图像生成模型进行训练数据污染,本研究表明可以成功进行生成模型的污染攻击,通过优化的 Prompt-specific Nightshade 攻击,可以使用少于 100 个毒样本破坏生成模型的稳定扩散,并提出将 Ni - FLTracer:联邦学习中准确的攻击来源溯源
本研究通过对现有 FL 攻击和检测方法进行综合研究,提出了 FLTracer,该方法能够准确检测各种攻击并追踪攻击时间、目标、类型和污染更新的位置,通过基于卡尔曼滤波器的跨轮次检测来识别攻击者,使检测方法对于数据异质性具有鲁棒性且能够在非独 - Sentinel:一种保护去中心化联邦学习的聚合函数
Sentinel 是一种用于对抗分布式联邦学习中的恶意攻击的防御策略,提供了一种基于本地数据的三步聚合协议,包括相似性过滤、引导验证和归一化,以提高对无目标和有目标恶意攻击的防御性能。
- FLEDGE: 基于账本的联邦学习抵抗推理和后门攻击
FLEDGE 是一个基于账本的联邦学习框架,通过使用加密货币来提高参与方的责任感,并在减轻推断和污染攻击的同时,保护模型隐私并保持模型效用。
- 通过实时邻近防御实现健壮的推荐
在这篇论文中,我们提出了一种通用方法 Real-time Vicinal Defense(RVD),通过利用邻近的训练数据来对模型进行微调,从而在为每个用户做推荐之前确保特定样本的鲁棒性,在实时中具有防御强度,在不改变模型结构和训练过程的情 - MASTERKEY: 实用的针对说话人验证系统的后门攻击
提出了一种名为 MASTERKEY 的后门攻击,针对智能手机系统中的说话者验证模型进行破坏,通过设计通用后门攻击任意目标说话者,成功率 100%,中毒率为 15%,在 3%中毒率时也能保持 50%的成功率。