对抗语义碰撞

Nov, 2020

Adversarial Semantic Collisions

Congzheng Song, Alexander M. Rush, Vitaly Shmatikov

TL;DR本论文研究语义碰撞，即在语义上不相关但被 NLP 模型认为相似的文本。我们开发了基于梯度的方法用于生成语义碰撞，并证明了许多任务的最新模型，这些任务依赖于分析文本的含义和相似性，包括释义识别、文档检索、响应建议和提取式摘要等方面的模型都容易受到语义冲突的影响。例如，针对一个目标查询，将一个精心制作的语义碰撞插入到一个无关的文档中可以将其检索排名从 1000 上升到前三。我们展示了如何生成避开清晰度过滤器的语义冲突，并讨论了其他可能的缓解方法。

Abstract

We study semantic collisions: texts that are semantically unrelated but judged as similar by nlp models. We develop gradient-based approaches for generating →

semantic collisions nlp models paraphrase identification document retrieval extractive summarization

发现论文，激发创造

文本对抗攻击中的语义保护

通过介绍 Semantics-Preserving-Encoder (SPE), 提出了一种解决预先训练的文本编码器中存在的问题以及提高对抗性攻击例子质量的简单，全监督的句子嵌入技术，结果表明 SPE 显著提高了对抗性攻击的质量。

Nov, 2022

生成自然语言攻击的上下文感知方法

本研究探讨使用黑盒方法攻击自然语言处理模型的重要任务，并提出了一种攻击策略，通过考虑原始单词及其周围情境的信息来找到候选单词，并在上下文理解方面共同利用掩码语言模型和下一句子预测。与先前的攻击相比，我们能够生成高质量的对抗性示例，成功率和单词扰动百分比都有显著提高。

Dec, 2020

用最小扰动生成文本对抗样本

本文提出了一种新的对抗攻击策略，旨在找到与原始文本相似度极高的对抗文本，同时引入最小扰动；实验结果表明，与现有攻击方法相比，我们的方法在四个基准数据集上的成功率更高，扰动率更低。

Nov, 2022

SemAttack: 基于不同语义空间的自然文本攻击

提出了一种有效的 SemAttack 框架，在不同语义空间下构建语义干扰函数生成更接近原始输入的自然对抗文本，可针对包括大规模 LM 和防御策略在内的对抗方法，适用于不同语言的对抗生成，而人评结果表明生成出的对抗文本自然，几乎不影响人类的表现。

May, 2022

从对比对抗样本中学习视觉基础语义

该研究旨在解决将文本的分布式表示与视觉域进行关联的问题。通过对视觉语义嵌入的深入研究，提出了基于语言规则和 WordNet 知识库的对抗样本技术，通过在 MS-COCO 图像字幕数据集上的评估取得了良好效果。

Jun, 2018

文本到图像合成中的语义关联对抗学习

本研究提出了一种新的方法，改进了生成对抗网络（GANs）训练的能力，可以根据文本输入合成多样的图像，这种方法基于条件版本的 GANs，扩展了前人利用判别器中的辅助任务，通过负样本采样来构造积极和消极的训练样例，通过牛津 102 花卉数据集的实验结果表明，生成的图像更具多样性，特别是当负样本逐渐靠近语义空间中的积极样本时。

Dec, 2018

语义相似度的演化 -- 综述

本文旨在全面概述自然语言处理领域中语义相似度计算的研究现状和各种方法及其优劣，将其归类为基于知识、基于语料库和基于深度神经网络等不同原理的方法，并希望能够促进新研究者的创新思路和实验。

Apr, 2020

语义产品搜索

通过训练深度学习模型，使用顾客行为数据，我们开发了一种新的损失函数，并结合 n-gram 和平均池化来捕捉短程语言模式，并使用哈希来处理词汇表外的标记，从而解决语意匹配在产品搜索中的挑战。在离线测试和在线 A/B 测试中，均表现出比基线语意搜索方法更好的召回率和平均准确率。

Jul, 2019

通过对抗学习进行语义图像合成

本文提出了一种使用自然语言描述直接合成逼真图像的方法，它有很多有用的应用，例如智能图像操作。我们提出了一种端到端的神经架构，利用对抗学习自动学习隐式损失函数，实现语义分离并生成新图像。通过在 Caltech-200 鸟类数据集和 Oxford-102 花卉数据集上进行实验，我们证明了我们的模型能够合成符合描述要求的逼真图像，同时仍保留原始图像的其他特征。

Jul, 2017

在没有注释的情况下识别平行文本中的语义分歧

本研究利用深度神经网络模型自动检测双语并行句对中的语义差异，该模型能够在无需任何手动注释的情况下训练任何并行语料库，我们显示出我们的语义模型比基于单词对齐的表层特征的模型更准确地检测到差异，并且发现这些差异对神经机器翻译至关重要。

Mar, 2018