CR-UTP: 通用文本扰动的认证鲁棒性

ACLJun, 2024

CR-UTP: 通用文本扰动的认证鲁棒性

CR-UTP: Certified Robustness against Universal Text Perturbations

Qian Lou, Xin Liang, Jiaqi Xue, Yancheng Zhang, Rui Xie...

TL;DR通过引入一种新的方法，即优越提示搜索方法，我们首次实现了针对 Universal Text Perturbations（UTPs）和 input-specific text perturbations (ISTPs) 的高可证明准确性。

Abstract

It is imperative to ensure the stability of every prediction made by a language model; that is, a language's prediction should remain consistent despite minor input variations, like word substitutions. In this paper, we investigate the problem of →

language model certifying universal text perturbations certified accuracy superior prompt search method

发现论文，激发创造

跨输入认证培训：通用扰动

我们提出了一种新的方法 CITRUS，用于训练网络以对抗 UAP 攻击者，通过广泛的评估表明，我们的方法在标准准确性方面表现出色（高达 10.3%），并在实际应用中实现了最佳认证 UAP 准确性指标的性能。

May, 2024

Text-CRS: 一个通用的文本对抗攻击认证鲁棒性框架

本文提出了一种基于随机平滑的泛化认证鲁棒性框架 Text-CRS，用于自然语言处理中的文本，并对单词级对抗操作进行了证明，实现了显著的准确性提升。

Jul, 2023

UniCR: 通过随机平滑实现通用近似认证鲁棒性

研究了机器学习分类器对抗性扰动的认证鲁棒性，提出了第一个通用近似认证鲁棒性 (UniCR) 框架，能够逼近任何输入在任何分类器中针对任何 $\ell_p $ 扰动时的鲁棒性认证。

Jul, 2022

解决神经机器翻译在输入扰动中的漏洞

本文提出了一种通过 Context-Enhanced Reconstruction（CER）方法提高神经机器翻译（NMT）在噪音输入下的稳健性的方法，该方法包括通过引入人造干扰词破坏自然性来抵制噪声，并通过提供更好的上下文表示来防止噪声传播。在中英文翻译和法英文翻译任务上的实验证明本方法能够提高新闻和社交媒体文本的稳健性，并且在社交媒体文本上的进一步微调实验表明该方法可以收敛到更高的位置并提供更好的适应性。

Apr, 2021

一个提示词足以提升预训练视觉语言模型的对抗鲁棒性

通过学习稳健的文本提示来提高视觉语言模型的对抗攻击的鲁棒性，该方法被称为对抗提示调优（APT），通过简单地向提示中添加一个学习到的单词，可以显著提高准确性和鲁棒性（epsilon=4/255），平均分别提高 13% 和 8.5%。

Mar, 2024

通过随机 [MASK] 实现对文本对抗攻击的认证鲁棒性

本文提出了一种随机遮挡的可证明鲁棒防御方法，对于 AGNEWS 数据集上五个词，SST2 数据集上两个词的任意扰动分类可以获得超过 50% 的证明鲁棒性，并在多个数据集上明显优于最近提出的防御方法。

May, 2021

建立语言模型和制表理解之间的桥梁

该论文提出了 UTP 这一基于对比学习及多模态输入的数据驱动表格文本预训练方法，可用于单模态和交叉模态输入任务，有效弥合了预训练和微调阶段的输入差距并提高了表和文本的对齐精度。

Feb, 2023

CC-Cert: 一种概率方法来证明神经网络的普适鲁棒性

本文提出了一种基于 Chernoff-Cramer Bounds 的新型通用概率认证方法，可以用于对抗性攻击环境下的机器学习应用。实验结果支持了我们的理论发现，证明了我们的方法对于语义扰动具有防御能力。

Sep, 2021

文本生成的统一复杂度

本文介绍了 Uniform Complexity for Text Generation (UCTG)，它是一项挑战，旨在使现有模型生成与输入语句或提示相对应的均匀复杂度的文本。在受控叙述生成任务中，我们发现 GPT-2 模型甚至人类在保持输入提示的语言复杂度方面遇到了困难。最终，我们提出了可能的方法和方法，可纳入指导语言模型处理此重要挑战的一般框架中。

Apr, 2022

LSTMs 在可编程转换下的认证鲁棒性

该论文提出了一种通过使用字符串转换语言来扩展鲁棒性证明的方法，成功地训练了比现有技术更鲁棒的模型，并且可以高精确度地证明模型的鲁棒性。

Feb, 2021