- 情感丧失攻击:基于多维特征的骨架感知骨骼攻击
我们提出了一种新的敌对攻击方法,通过引入情感特征和动态距离函数,使用交替方向乘法算法 (ADMM) 生成具有更好的隐蔽性的敌对样本,以欺骗动作识别器,实验证明我们的方法在多个动作分类器和数据集上是有效的。
- IDT:双任务对抗攻击用于隐私保护
本研究使用对抗攻击技术改变文本以欺骗隐私分类器,同时保持针对其他任务的分类器预测不变,提出了 IDT 方法,分析辅助及可解释模型的预测结果,以确定对于隐私任务需要改变的词汇和对于其他任务需要保留的关键词汇,实验证明 IDT 在保护隐私的同时 - AGSOA:基于平均梯度和结构优化的图神经网络目标攻击
该研究提出了一种对图神经网络 (GNNs) 进行攻击的方法,称为 AGSOA,该方法通过平均梯度计算和结构优化模块来提高攻击的性能。通过在所有时刻计算梯度信息的平均值来引导攻击生成扰动边,从而稳定攻击更新的方向并避免不良局部最大值;通过计算 - 显著关注和语义相似性驱动的对抗扰动
本研究提出了一种增强型的文本对抗攻击方法,称为 Saliency Attention and Semantic Similarity driven adversarial Perturbation (SASSP)。该方法通过整合显著性、注意 - 神经网络中的过参数化与对抗鲁棒性:综述与实证分析
通过实证研究,我们发现过参数化神经网络相对于低参数网络在对抗性攻击方面更具鲁棒性。
- SelfDefend: LLMs 能够以实用方式自我防护免受越狱攻击
这篇论文介绍了一种名为 SelfDefend 的通用 LLM 监狱破解防御框架,通过在正常堆栈中建立影子 LLM 防御实例并与目标 LLM 实例协同工作来保护目标 LLM 实例。测量结果表明,SelfDefend 可使 GPT-3.5 的攻 - 图形神经网络解释是脆弱的
解释性图神经网络的解释器在对抗性攻击下表现脆弱
- 社交网络中检测恶意网络欺凌和仇恨言论的深度学习方法
本研究针对社交网络文本数据中含有的对抗性攻击内容,特别强调仇恨言论的网络欺凌进行检测,利用基于深度学习的方法和纠错算法,实现了显著结果。LSTM 模型在固定的 100 个时期内表现出色,准确率、精确率、召回率、F1 分数和 AUC-ROC - 基于小波的图像分词方法用于视觉变压器
基于小波变换的图像分词器提高了训练吞吐量并减少了 ImageNet 验证集的 top-1 误差率,同时为基于 ViT 模型设计提供了新的研究方向。
- ICML可信动态扰动
我们提出了一种名为可信行动扰动(TAP)的新框架,用于创建修改输入以有益地改变真实的概率,包括一种新颖的验证过程来确保 TAP 改变真实的类概率而不是敌对地行动,还包括更适合在现实世界中实现变化的成本、奖励和目标定义,我们对验证过程的 PA - 保护视觉语言模型免受已插入的视觉提示注入器的威胁
通过 SmoothVLM 防御机制,本文针对视觉 - 语言模型中的补丁式对抗性提示注入进行研究,取得了成功的攻击率降低和上下文恢复率提高的平衡。
- DiffAM:基于扩散的面部隐私保护对抗妆容转换
利用扩散模型生成对抗性妆容转移以保护人脸图像隐私的研究
- 会话蕴含任务的对抗攻击与防御
在这项研究中,我们将对抗性攻击结果视为模型的一个新(未见过的)领域,并将防御问题转化为如何提高模型在这个新领域的鲁棒性。我们关注会话蕴含任务,其中多轮自然语言对话是前提,通过对变换模型进行微调以预测给定对话的假设是真还是假。我们采用同义词交 - 深度假象图像检测在威胁环境不断演化中的近期进展分析
深度伪造检测与防御研究方向的关键词有:深度伪造、检测、防御、生成模型和对抗攻击。
- ACL构建鲁棒的毒性预测模型
最近的自然语言处理文献很少关注毒性语言预测器的稳健性,而这些系统最有可能在对抗性环境中使用。本文提出了一种新的对抗性攻击方法 ToxicTrap,通过引入小的单词级扰动来欺骗最先进的文本分类器,将有毒的文本样本预测为良性。ToxicTrap - ACL提升关系抽取的敌对视角
提出了一种针对关系抽取的对抗训练方法,通过序列和标记级的扰动引入独立的扰动词汇表来改进对实体和上下文扰动的搜索,引入了一种概率策略在对抗训练上使上下文的清理标记数更多,实验证明相比于其他对抗训练方法,该方法显著提高了模型的准确性和鲁棒性,同 - 输入扰动对稳健准确公平性的双刃剑
深度神经网络对于对抗性输入扰动具有敏感性,为了同时表征预测准确性和个体公平性对于对抗性扰动的易感性,我们引入了一个新的鲁棒性定义,称为鲁棒准确公平性。我们提出了一种名为 RAFair 的对抗性攻击方法,用以暴露在深度神经网络中存在的虚假或有 - 扩散攻击:利用稳定扩散进行自然图像攻击
通过结合风格转移的方法,我们提出了一个框架来针对虚拟现实中的对抗性攻击,制造具有自然风格的对抗输入,以达到最小可探测性和最大自然外观,同时保持卓越的攻击能力。
- FMM-Attack:基于流的多模态视频侵略性攻击对 LLMs
使用流式多模态对抗性扰动,我们提出了首个专为基于视频的大型语言模型设计的对抗性攻击,有效地诱使此类模型生成错误答案,并引发幻觉。这一研究对多模态稳健性和安全相关特性对齐方面的进一步理解具有重要意义。
- 坚如磐石:开源基础模型能否用于为下游任务创建对抗性例子?
基于开源的基础模型 CLIP 的先前训练,我们揭示了其对下游模型的共享对抗性漏洞,并提出了一种名为 Patch Representation Misalignment(PRM)的简单而有效的对抗性攻击策略,该方法可以同时欺骗 4 个常见视觉