通过神经元激活空间的对抗学习，在视觉问答中进行实例级别的特洛伊攻击

Apr, 2023

通过神经元激活空间的对抗学习，在视觉问答中进行实例级别的特洛伊攻击

Instance-level Trojan Attacks on Visual Question Answering via Adversarial Learning in Neuron Activation Space

Yuwei Sun, Hideya Ochiai, Jun Sakuma

TL;DR针对神经网络在 fine-tuning 时遇到的木马攻击问题，本文提出了在多层预训练模型上实现测试集样本水印攻击的方法，通过对样本之间和样本内部的多样性进行控制，最终得到在少量样本上可以成功攻击 fine-tuning 模型的工作。

Abstract

Malicious perturbations embedded in input data, known as trojan attacks, can cause neural networks to misbehave. However, the impact of a Trojan attack is reduced during →

trojan attacks neural networks fine-tuning pretrained model adversarial learning

发现论文，激发创造

VQAttack：基于预训练模型的可传递视觉问答对抗攻击

使用预训练的多模态源模型生成对抗性图像 - 文本对来攻击目标 VQA 模型，并提出了一种新的 VQAttack 模型，通过设计的模块迭代生成图像和文本扰动，实验证明在转移攻击环境下，与现有方法相比，该模型具有有效性。

Feb, 2024

FVQA 2.0：将对抗样本引入基于事实的视觉问答

FVQA 2.0 数据集添加了敌对测试问题，以解决此数据集高度不平衡及集中在其相关知识图谱的部分问题。实验结果表明，原始数据集训练的系统容易受到敌对样本的影响，但通过无需人工标记的增强方法可以减少此类漏洞。

Mar, 2023

对抗性 VQA：评估 VQA 模型鲁棒性的新基准

通过引入 Adversarial VQA 作为一个新的大型 VQA 基准测试，我们发现非专业注释者可以轻松成功攻击 SOTA VQA 模型，而预训练模型和对抗训练方法在新基准测试中效果远不如 VQA v2 基准测试，并且我们的数据集可有效提高模型在其他稳健性 VQA 基准测试中的性能。

Jun, 2021

理解和提升对抗样本的可迁移性

本文系统研究了影响对抗样本传递性的两类因素，包括网络结构、测试精度等模型特定因素和构建对抗样本的损失函数的局部光滑性。基于这些理解，提出了一种简单而有效的策略来增强传递性，称为方差降低攻击，因为它利用方差降低梯度来生成对抗样本，实验结果表明其有效性。

Feb, 2018

利用对抗训练模型中的潜在层漏洞

本研究通过对鲁棒性模型的分析，发现相对于输入层抗攻击性较强的特征层是高度容易受到小幅度形变攻击的。在此基础上，我们提出了一种名为 LAT 的新技术，通过对已经进行对抗性训练的模型进行微调，以保证其特征层的鲁棒性。研究表明此方法对 MNIST、CIFAR-10 和 CIFAR-100 数据集的前沿对抗准确度有轻微提升。

May, 2019

视觉问答模型鲁棒性分析的新框架

提出基于语言部分的弹性框架，使用语义相关的基本问题作为可控噪声，评估 VQA 模型的鲁棒性，并提出新的鲁棒性度量标准 R_score 和两个大规模的基础问题数据集（BQDs），以规范 VQA 模型的鲁棒性分析。

Nov, 2017

通过对抗正则化克服视觉问答中的语言先验

本文提出了一种新颖的正则化方法，通过引入一个仅装载问题的对手模型并在视觉贡献约束之后训练视觉问答模型，取得了在多个基础模型上明显提高的效果，并在标准 VQA 任务中表现出少得多的准确率下降，从而降低了语言偏差的影响。

Oct, 2018

通过归因驱动的洞见探索 VQA 模型的弱点

本研究分析了基于 Deep Neural Networks 的 Visual Question Answering 模型在真实场景中的应用及其受到问题输入变化的影响，并通过属性的视角对其进行了实验和对比，提出了对抗性攻击的方法，以增强系统对于可能的输入变化的鲁棒性和为视觉障碍者的辅助部署提出新的思路。

Jun, 2020

尽管有定位和注意力机制，仍然能够欺骗视觉和语言模型

本文研究了视觉和语言模型的对抗样本，评估发现在具备自然语言理解和复杂结构（如注意力、边界框定位和组合内部结构）的模型中可以生成高成功率的对抗样本，这些观察结果可以帮助建立有效的防御措施。

Sep, 2017

通过中间层攻击增强对抗样本的可传递性

介绍了一种名为 ILA 的攻击方法，它可以利用源模型的中间层信息对现有的对抗样本进行微调，从而提高黑盒攻击的成功率。

Jul, 2019