CR-UTP: 通用文本扰动的认证鲁棒性
我们提出了一种新的方法 CITRUS,用于训练网络以对抗 UAP 攻击者,通过广泛的评估表明,我们的方法在标准准确性方面表现出色(高达 10.3%),并在实际应用中实现了最佳认证 UAP 准确性指标的性能。
May, 2024
本文提出了一种基于随机平滑的泛化认证鲁棒性框架 Text-CRS,用于自然语言处理中的文本,并对单词级对抗操作进行了证明,实现了显著的准确性提升。
Jul, 2023
研究了机器学习分类器对抗性扰动的认证鲁棒性,提出了第一个通用近似认证鲁棒性 (UniCR) 框架,能够逼近任何输入在任何分类器中针对任何 $\ell_p $ 扰动时的鲁棒性认证。
Jul, 2022
本文提出了一种通过 Context-Enhanced Reconstruction(CER)方法提高神经机器翻译(NMT)在噪音输入下的稳健性的方法,该方法包括通过引入人造干扰词破坏自然性来抵制噪声,并通过提供更好的上下文表示来防止噪声传播。在中英文翻译和法英文翻译任务上的实验证明本方法能够提高新闻和社交媒体文本的稳健性,并且在社交媒体文本上的进一步微调实验表明该方法可以收敛到更高的位置并提供更好的适应性。
Apr, 2021
通过学习稳健的文本提示来提高视觉语言模型的对抗攻击的鲁棒性,该方法被称为对抗提示调优(APT),通过简单地向提示中添加一个学习到的单词,可以显著提高准确性和鲁棒性(epsilon=4/255),平均分别提高 13% 和 8.5%。
Mar, 2024
本文提出了一种随机遮挡的可证明鲁棒防御方法,对于 AGNEWS 数据集上五个词,SST2 数据集上两个词的任意扰动分类可以获得超过 50% 的证明鲁棒性,并在多个数据集上明显优于最近提出的防御方法。
May, 2021
该论文提出了 UTP 这一基于对比学习及多模态输入的数据驱动表格文本预训练方法,可用于单模态和交叉模态输入任务,有效弥合了预训练和微调阶段的输入差距并提高了表和文本的对齐精度。
Feb, 2023
本文提出了一种基于 Chernoff-Cramer Bounds 的新型通用概率认证方法,可以用于对抗性攻击环境下的机器学习应用。实验结果支持了我们的理论发现,证明了我们的方法对于语义扰动具有防御能力。
Sep, 2021
本文介绍了 Uniform Complexity for Text Generation (UCTG),它是一项挑战,旨在使现有模型生成与输入语句或提示相对应的均匀复杂度的文本。在受控叙述生成任务中,我们发现 GPT-2 模型甚至人类在保持输入提示的语言复杂度方面遇到了困难。最终,我们提出了可能的方法和方法,可纳入指导语言模型处理此重要挑战的一般框架中。
Apr, 2022