针对生物医学自然语言处理任务的对抗性样本
在本文中,通过对 BERT 模型进行 BERT-on-BERT 攻击、PWWS 攻击和 Fraud Bargain's 攻击 (FBA) 这三种不同的攻击机制的探索,利用 IMDB、AG News 和 SST2 等数据集进行全面对比分析,发现 PWWS 攻击是最强大的对手,在多个评估场景中始终优于其他方法,从而强调其在生成文本分类的对抗示例方面的功效。通过全面的实验,评估了这些攻击的性能,并发现 PWWS 攻击优于其他方法,具有更低的运行时间、更高的准确性和更好的语义相似度得分,这是这篇论文的关键见解。
Apr, 2024
本文调查了针对 BERT 的四种基于词汇替换的攻击方法,结合人类评估和概率分析,发现 96% 至 99% 的攻击并不能维护语义,其成功性主要基于将质量较差的数据输入模型中。作者进一步提出了有效的数据增强方案,以防止许多对抗性攻击。最终,通过对词汇更换的约束条件设定更合理的阈值,作者得出结论:BERT 比攻击研究所说的要更加健壮。
Sep, 2021
本研究探讨了在维持语义和语法约束的前提下进行对抗样本攻击的可行性,通过 crowdsourcing 实验发现人类可以通过语义保持的词汇替换生成大量的对抗样本,这些人类生成的对抗样本虽然比最好的算法更加高效,但在自然性、情感及语法方面的表现并不高于最佳算法。
Sep, 2021
通过引入第一个阿拉伯语的词级研究,我们使用基于掩蔽语言建模任务的同义词替换攻击,评估了最先进的文本分类模型对于阿拉伯语中的对抗攻击的鲁棒性,并研究了这些对抗样本的语法和语义相似性、传递性攻击的有效性以及关于 BERT 模型的防御机制的效果。我们发现,相较于其他我们训练的深度神经网络模型(如 WordCNN 和 WordLSTM),经过微调的 BERT 模型对我们的同义词替换攻击更容易受到影响。最后,我们发现经过对抗训练作为初始防御机制后,经过微调的 BERT 模型成功地恢复了至少 2% 的准确率。
Feb, 2024
大型语言模型(LLMs)在医疗应用中的整合为医学诊断、治疗建议和患者护理方面的进步提供了有希望的前景,然而,LLMs 对敌对攻击的易受攻击性构成了重大威胁,可能导致敏感医疗环境中的不良结果。本研究调查了 LLMs 在三个医学任务中面临的两种类型的敌对攻击的易受攻击性。利用真实的患者数据,我们证明了开源和专有的 LLMs 在多个任务中容易受到操纵。这项研究进一步揭示了针对特定领域任务的模型微调需要更多的敌对数据以实施有效的攻击,特别是对于更强大的模型而言。我们发现,虽然整合了敌对数据不会明显降低医学基准测试中的整体模型性能,但它确实会导致微调模型权重的明显变化,这表明检测和对抗模型攻击的潜在途径。这项研究强调了在医疗应用中确保 LLMs 安全有效部署的迫切需求,需要健全的安全措施和防御机制来保护 LLMs。
Jun, 2024
我们提出了一种上下文感知对抗攻击方法,通过扰乱识别实体最具信息量的词语来生成自然而可信的对抗样本,实验证明我们的方法在误导模型做出错误预测方面比基准方法更有效。
Sep, 2023
本文提出了一种基于生物医学领域同义替换和 BERTMLM 预测的黑盒攻击算法 BBAEG,旨在提高生物医学文本分类的抗干扰性和预测准确性。通过对两个数据集的自动和人工评估,我们证明 BBAEG 相对于以往的工作具有更强的攻击能力和更好的语言流畅性和语义连贯性。
Apr, 2021
基于参数化领域知识和对抗性样本的研究,通过在嵌入空间中进行权值抽样发现了多种对抗实体作为干扰因素,并证明了它在生物医学问题上对抗问答中相对于随机抽样的优势,同时揭示了对抗性实体在特征上明显不同的两个区域,且攻击成功地操纵了基于令牌的 Shapley 值解释,在对抗性环境中具有欺骗性。这些调查说明了 LLMs 领域知识的脆弱性,同时揭示了高容量模型标准评估的不足。
Feb, 2024
使用专家引导的启发式方法构建了一个高质量的 CoNLL 2003 测试数据集,通过基于此集合的对抗性扰动来评估 NER 模型的泛化能力,并且通过使用混合数据训练技术来显著提高在挑战集上的性能以及提高了域外泛化能力。
Mar, 2022
这篇论文探讨了 NLP 中最先进的模型 BERT 在处理存在于真实文本中的打字错误等噪声数据时的鲁棒性,并在情感分析和问题回答基准测试中进行了实验。研究表明:各种单词的打字错误对于 BERT 的影响不同;打字错误是损坏 BERT 性能最严重的因素之一;人类和机器对于识别对抗攻击有不同的关注点。
Feb, 2020