Jun, 2022
文本分类器通用对抗策略
A Universal Adversarial Policy for Text Classifiers
Gallil Maimon, Lior Rokach
TL;DR我们引入了一种新的通用对抗策略,通过在多个文本上学习一个单一的搜索策略,可以成功地找到通用的对抗样本,该策略基于与文本领域相关的名称替换和语义保留文本修改,并使用强化学习来提取强基线方法。
Abstract
Discovering the existence of universal adversarial perturbations had large
theoretical and practical impacts on the field of adversarial learning. In the
→
universal adversarial perturbationsadversarial learningtext domainuniversal adversarial policysemantics preserving text alterations
发现论文,激发创造
语音命令分类任务中的通用对抗样本
本文研究了语音指令分类中存在的通用扰动问题,并提出了新的分析框架以测量扰动引入的畸变量。研究表明,通用攻击在不同模型中都能够实现,并且引入的畸变量随着普适性级别的提高而降低。同时,作者指出现有方法在解决语音领域的问题时存在不现实性。
Nov, 2019
通用对抗训练
本文研究的是生成通用对抗扰动和抵御这类扰动的有效方法,提出了一种简单的基于优化的通用攻击方法来降低各种网络的 ImageNet 上的准确性,并提出了一种通用对抗性训练来生成抗干扰的分类器。
Nov, 2018
通用对抗攻击综述
本研究总结了最近在通用对抗攻击领域里取得的进展,讨论了攻击和防御方面的挑战以及通用对抗攻击存在的原因,旨在成为一项动态研究,不定期更新其内容,包括图像、音频、视频和文本等多个领域,欢迎该领域的作者联系我们,以纳入您的新发现。
Mar, 2021
使用自然触发器的通用文本对抗攻击
利用对抗正则化自编码器 (ARAE) 和梯度搜索等技术,对现代文本分类器进行了对抗攻击,生成的词组比先前模型更接近自然的英语短语,并能在被加入到输入文本后成功混淆分类器,并且难以被自动检测或人为辨识。该研究的目的是展示对抗攻击可以比先前认为的更难被检测到,并推动防御技术的发展。
May, 2020
用最小扰动生成文本对抗样本
本文提出了一种新的对抗攻击策略,旨在找到与原始文本相似度极高的对抗文本,同时引入最小扰动;实验结果表明,与现有攻击方法相比,我们的方法在四个基准数据集上的成功率更高,扰动率更低。
Nov, 2022
通过扰动修复对抗性文本
提出了一种通过多种敌对扰动方法修复文本,使神经网络能够正确分类的方法,经实验证明,该方法可对约 80%的文本进行修复,并且取决于使用的扰动方法,平均修复一条文本的时间仅需一秒。
Dec, 2021