SenTest: 句子编码器鲁棒性评估
本文介绍了 RobustSentEmbed,这是一个自监督的句子嵌入框架,旨在改善自然语言处理任务中的泛化能力和对抗性环境中的鲁棒性。通过生成高风险对抗扰动并利用新颖的目标函数,RobustSentEmbed 能够熟练学习高质量且鲁棒的句子嵌入。实验证实了 RobustSentEmbed 优于最先进的表示方法的优越性,尤其是对于各种对抗性攻击,BERTAttack 的成功率从 75.51% 降低至 38.81%。该框架还在语义文本相似性任务和各种迁移任务中分别实现了 1.59% 和 0.23% 的改进。
Mar, 2024
本文旨在研究预训练语言编码器(ELMo,BERT 和 RoBERTa)在面对自然语法错误时的表现,通过采集真实语法错误和进行对抗性攻击来模拟这些错误对干净文本数据的影响。结果证实,所有测试模型的性能都受到了影响,但影响程度有所不同。此外,我们设计了一个语言接受度任务来揭示它们在识别不符合语法的句子和错误位置方面的能力。本文的结果有助于理解语言编码器对语法错误的鲁棒性和行为。
May, 2020
本文提出了一种多模态多任务的 Transformer 模型,通过对句子和非语言数据对比学习的方式来提高句子编码器的性能,并在基准测试中获得了更高质量的语义文本相似性结果。
Sep, 2022
本文提出一种名为 RobEn 的框架,实现 NLP 系统对抗攻击的鲁棒性,相较于之前的方法具有更好的稳定性和保真度,在六项任务中,RobEn 与 BERT 的结合在防御一系列错别字攻击中可达到 71.3% 的平均准确度,而之前的方法只能达到 35.3%。
May, 2020
在本研究中,我们采用回顾性方法,对比了 5 种现有的句子编码器,即 Sentence-BERT、Universal Sentence Encoder (USE)、LASER、InferSent 和 Doc2vec,在下游任务表现和捕获基本语义特征能力方面的表现。我们评估了这五种句子编码器在受欢迎的 SentEval 基准测试上的表现,发现多个句子编码器在各种受欢迎的下游任务上表现良好。然而,在所有情况下都没有找到一个单一的优胜者,因此,我们设计了进一步的实验来更深入地了解它们的行为。我们提出了四个语义评估标准:复述、同义词替换、反义词替换和句子混乱,并使用这些标准评估了同样的五种句子编码器。我们发现,Sentence-BERT 和 USE 模型通过了复述标准,其中 SBERT 在两者之间更为优越。在同义词替换标准方面,LASER 表现最佳。有趣的是,所有句子编码器都未通过反义词替换和句子混乱的标准。这些结果表明,尽管这些受欢迎的句子编码器在 SentEval 基准测试上表现良好,但它们仍然难以捕捉一些基本的语义特征,因此,在自然语言处理研究中面临严峻的困境。
Sep, 2023
本文提出了一种使用对比学习进行监督学习 Fine-tuning 预训练 BERT 模型以创建高效句子嵌入的新方法,相比于只使用基于交叉熵的监督学习的当前最先进方法 SBERT,我们的方法可以在句子转换和语义文本相似度基准测试上改进 2.8%和 1.05%。
Jun, 2021
本文调查了针对 BERT 的四种基于词汇替换的攻击方法,结合人类评估和概率分析,发现 96% 至 99% 的攻击并不能维护语义,其成功性主要基于将质量较差的数据输入模型中。作者进一步提出了有效的数据增强方案,以防止许多对抗性攻击。最终,通过对词汇更换的约束条件设定更合理的阈值,作者得出结论:BERT 比攻击研究所说的要更加健壮。
Sep, 2021
采用拟态数据集和动态修改数据的对抗训练方法可以提高 Transformer 模型在对抗性攻击下的鲁棒性,使性能下降最多为 5%。然而,模型的性能与鲁棒性之间存在一种权衡关系,进一步的研究仍然需要进行。
Feb, 2024
本文提出了一种通过对抗样本和零样本跨语言转移失败案例进行联系的学习策略,采用对抗性训练和随机平滑这两种方法来训练多语言编码器更加强健的模型,实验结果表明,强健训练可以提高零样本跨语言数据分类任务中的性能,尤其在输入语句属于两种不同语言的情况下,改进更为显著。
Apr, 2021
本文提出一种基于伪符号 Bert(PT-Bert)的语义感知对比学习框架,可以有效地利用句子的伪符号空间表示,消除了句子长度和语法等表征对模型的影响,实现了对未标注文本的编码。通过构建同长度的正负样本对进行对比学习,我们的模型在六个标准语义文本相似性(STS)任务中优于现有的基准模型。
Mar, 2022