信息论视角下的解耦文本表示学习对抗性鲁棒性

Oct, 2022

信息论视角下的解耦文本表示学习对抗性鲁棒性

Disentangled Text Representation Learning with Information-Theoretic Perspective for Adversarial Robustness

Jiahao Zhao, Wenji Mao

TL;DR本文从可分离表示学习的角度解决了对抗鲁棒性的挑战，并设计了一个可分离学习网络来估计互信息，实验证明该方法在对抗攻击下显著优于代表性方法，强调舍弃非鲁棒性特征对于提高对抗鲁棒性至关重要。

Abstract

adversarial vulnerability remains a major obstacle to constructing reliable nlp systems. When imperceptible perturbations are added to raw input text, the performance of a →

adversarial vulnerability nlp systems deep learning model robust features disentangled representation

发现论文，激发创造

利用信息论指导改进解缠文本表示学习

通过信息理论，提出了一种能够有效将自然语言进行解缠编码的新方法，产生了在内容和风格保留方面高质量的解缠表示，借助互信息的上界来度量风格和内容之间的相关性，实现对风格和内容嵌入成两个独立的低维空间。

Jun, 2020

通过使用解缠表示进行对抗混合实现野外的稳健性

本文提出一种新的方法来达到对真实世界输入的鲁棒性，该方法利用了分解输入的表示来定义不同的变化因素，并通过对不同图像的表示进行对抗组合生成新的输入图像。我们使用 StyleGAN 模型来证明这一框架的有效性，并通过训练模型对真实世界的变化进行了不变性训练，从而改善了模型的泛化能力，并降低了冗余相关性的影响。

Dec, 2019

通过分离已知和未知的干扰因素进行弱监督不变表示学习

提出了一种弱监督信号和对比方法相结合的框架来同时学习解缠和不变表示，实验证明该方法在四个标准基准上均优于现有最先进方法，且无需对抗训练即具有更好的对抗防御能力。

Sep, 2022

用一种新颖的信息论目标分解表示以实现公平分类

从多种上下文环境的观察中提取现实的抽象表示是深度学习的一个追求目标之一。本文采用信息论的视角来研究这个问题，提出了一种新颖的正则化方法，称为 CLINIC 损失，通过大量的数值实验证明了这种方法在解缠表征与准确性之间取得更好的平衡，并且在不过于限制解缠任务的情况下具有更好的普适性。

Oct, 2023

学习自然语言定义的解耦表示

使用可表征语法和语义规律的定义句类别训练变分自编码器，并在多个测试中展现其成功解耦表示效果，以及在定义建模中得到的改善。

Sep, 2022

学习正交解缠表示以实现公平性

本文提出了一种新颖的分离方法来解决不变表示的问题，通过正交约束作为独立的代理来将有意义和敏感表示分离，并通过熵最大化来明确地强制有意义的表示对敏感信息不可知。该方法在公开的数据集上进行了评估，并将其与最先进的方法进行了比较，证明其在处理公平性和不变性方面具有最先进的性能。

Mar, 2020

通过统计相似性度量学习解缠纠缠纷的文本表征

本文研究使用统计相似度度量为基础，构建了一种新的数据表述方法，不需要深度神经网络训练，快速且精度更高地进行敏感属性的鉴别，从而避免社会偏见。

May, 2022

文本表示的敌对分解

本文提出了一种文本表示的对抗性分解方法，并通过两个案例展示其能够进行精细控制元素变化，并学习连续的风格表示。该模型使用对抗性训练和特定的动机损失，并在下游任务中表现优异。

Aug, 2018

揭开跨类解耦的神秘面纱

介绍了一种名称为 LORD 的基于潜在空间优化的表示分离方法，使用了不对称噪声正则化方法提高了分离性能，实验表明该方法的性能优于常见的对抗训练和非对抗训练方法，并通过聚类扩展该方法，取得了关于领域翻译的有希望的结果。

Jun, 2019

探索稳健特征以提升对抗性鲁棒性

通过分离鲁棒特征和领域特定特征，我们提出了一个鲁棒特征分离模型，以增强模型的对抗性鲁棒性。同时，训练出的领域鉴别器几乎完美地能够识别出干净图像和对抗性样本中的领域特定特征，从而无需额外的计算成本实现对抗性样本的检测。这样一来，我们可以为干净图像和对抗性样本指定不同的分类器，避免了干净图像准确率的降低。

Sep, 2023