确保因果干预对自然语言攻击的稳健性证明

May, 2022

确保因果干预对自然语言攻击的稳健性证明

Certified Robustness Against Natural Language Attacks by Causal Intervention

Haiteng Zhao, Chang Ma, Xinshuai Dong, Anh Tuan Luu, Zhi-Hong Deng...

TL;DR本文从因果的角度探讨了深度学习模型在面对对抗性示例时的容易受到攻击的漏洞，提出了一种新的对抗性攻击防御框架 CISS，该框架采用平滑的方式在潜在的语义空间中学习因果效应，并在深层次结构的规模上实现了鲁棒性，并避免了为特定攻击定制噪声的繁琐构建。实验证明该框架能够抵御词语替代攻击，即使是强化了未知攻击算法的扰动。例如，对于 YELP，CISS 在认证鲁棒性方面超越亚军 6.7％，并在综合了语法攻击之后达到 79.4％的经验性鲁棒性。

Abstract

deep learning models have achieved great success in many fields, yet they are vulnerable to adversarial examples. This paper follows a causal perspective to look into the adversarial vulnerability and proposes

deep learning adversarial vulnerability causal intervention semantic smoothing robustness

发现论文，激发创造

Text-CRS: 一个通用的文本对抗攻击认证鲁棒性框架

本文提出了一种基于随机平滑的泛化认证鲁棒性框架 Text-CRS，用于自然语言处理中的文本，并对单词级对抗操作进行了证明，实现了显著的准确性提升。

Jul, 2023

TSS: 用于鲁棒性认证的转换特定平滑

本文提出了一个名为 TSS 的框架，用于证明机器学习算法具有普适的鲁棒性，能够有效地抵御各种对抗性的语义转换和攻击，特别是在图像分类领域中，对于像旋转，高斯模糊等紧密的语义转换表现出了优秀的鲁棒性。

Feb, 2020

GSmooth: 通过广义随机光滑化证明对抗语义转换的鲁棒性

本研究提出了广义随机平滑（GSmooth）理论框架及算法，通过新的维度扩增策略，可证明机器学习系统对普遍的语义转换是有稳健性的，采用基准测试的方法得到的结果显示了我们的方法非常有效。

Jun, 2022

通过语义平滑对抗越狱攻击的大型语言模型防御

防止大语言模型遭受越狱攻击的 SEMANTICSMOOTH 防御机制，在语义攻击方面取得了最先进的鲁棒性成果，并在指导遵循基准测试中保持强大的名义性能。

Feb, 2024

条件不变的语义分割

通过样式化实现特征级别自适应，使编码器提取与输入样式无关的特征，这可以促使解码器更好地解析这些特征而不是与输入样式有关的其他抽象内容。这种方法在领域适应方面取得了显著的改进。

May, 2023

通过因果干预对远程监督命名实体识别进行去偏置化处理

该论文通过结构因果模型对 DS-NER 中的词典偏差进行解释和分类，并提出了一种基于因果干预的去除偏差的方法，包括通过后门调整和因果不变正则化器来提高模型鲁棒性，实验证明该方法显著提高了 DS-NER 的性能。

Jun, 2021

结构与表示之间因果不一致的 SSL 框架

通过交叉深度学习和因果发现，我们在非统计数据形式如图像、视频和文本中阐明因果关系，特别是在不确定的数据形式中，提出干预策略和因果一致性条件，并设计了自监督学习框架，并在监督专用模型和大型语言模型上实现了两个示例，通过评估纯不一致性表现和其他三个下游任务，验证了我们方法的有效性，揭示了因果一致性条件在各个领域中可能发挥的影响力。

Oct, 2023

CC-Cert: 一种概率方法来证明神经网络的普适鲁棒性

本文提出了一种基于 Chernoff-Cramer Bounds 的新型通用概率认证方法，可以用于对抗性攻击环境下的机器学习应用。实验结果支持了我们的理论发现，证明了我们的方法对于语义扰动具有防御能力。

Sep, 2021

(大型) 语言模型中实体偏见的因果视角

通过提出特定的结构因果模型（SCM）及其上的因果干预技术，在白盒和黑盒模型中缓解了实体偏差，该干预通过干扰原始实体与邻近实体来减少与原始实体有关的特定偏见信息，同时仍保留来自相似实体的充分共同预测信息，在关系抽取任务上，我们的训练时间干预将 RoBERTa 的 F1 得分在 EntRED 上提高了 5.7 分，在 GPT-3.5 上，我们的上下文干预有效减少了参数化知识和上下文知识之间的知识冲突，并将 F1 得分在一个具有挑战性的测试集中提高了 9.14 分。

May, 2023

继承与蒸馏，对比进化：探索无样本记忆的类别增量语义分割

本文提出了一种新的方法 Inherit with Distillation and Evolve with Contrast (IDEC)，它通过 Dense Knowledge Distillation on all Aspects (DADA) 和 Asymmetric Region-wise Contrastive Learning (ARCL) 模块解决了类增量语义分割中遇到的灾难性遗忘问题和语义漂移问题，并在多个 CISS 任务中展现出卓越的性能。

Sep, 2023