大型神经语言模型的对抗性训练
本文比较了几种对抗训练语言模型的不同方法,包括预训练数据增强,输入空间扰动和嵌入空间扰动,发现输入空间扰动或预训练数据增强可以提高鲁棒性,而使用嵌入空间扰动可以显著提高泛化性。通过神经元的语言相关性分析表明,泛化性的提高是由于 “更加专业化” 的神经元。这是第一篇对对抗训练语言模型生成不同对抗示例方法进行深度定性分析的工作。
Nov, 2022
本文提出了一种新的对抗性训练算法 FreeLB,它通过在单词嵌入中添加对抗性扰动并在不同输入样本周围的区域内最小化结果对抗风险,推广了嵌入空间中的更高不变性。实验证明,这种方法能够提高自然语言理解和常识推理任务中 Transformer 模型的性能。
Sep, 2019
通过在 LLM 的连续嵌入空间中计算对抗攻击来提高对离散攻击的鲁棒性,我们提出了一种快速的对抗训练算法 (C-AdvUL),通过对对抗行为数据集上计算的连续嵌入攻击使模型变得鲁棒;我们还引入了 C-AdvIPO,这是一种对抗的 IPO 变体,不需要效用数据进行对抗性鲁棒对齐。我们的实证评估表明,这两个算法显著提高了 LLM 对离散攻击的鲁棒性,并保持了效用。这些结果表明,对连续扰动的鲁棒性可以外推到离散的威胁模型,为大规模对抗训练算法的鲁棒对齐 LLM 提供了一条路径。
May, 2024
该研究通过优化 fine-tuned adapters 并使用混合数据训练神经网络,提出了一种在实践中更实用的对抗训练机制,从而在提高模型的泛化性和预测性能的同时避免了传统对抗训练方法中存在的性能下降和计算成本较高的问题。
Jan, 2024
RoAST 是一种简单而有效的微调技术,通过在微调期间引入对抗性扰动,并且在相对重要性上选择性地更新模型参数,以提升语言模型的多角度鲁棒性。通过统一评估微调的语言模型在四个代表性的鲁棒性角度下,我们证明了 RoAST 相对于最先进的微调方法在六种不同类型的语言模型上的有效性,表明其在实践中的有用性。
Dec, 2023
本文探讨了最新的预训练语言模型(PLMs),包括 GPT-3 和 BERT,存在安全漏洞,使其容易受到对抗性攻击的影响,并提出了一种有效的对抗方法来测试模型的语义相似性并减少其分类质量。
Sep, 2022
本文提出了一种名为 FLAT 的特征级对抗性训练方法,该方法旨在通过正则化全局词重要性分数来调节模型在替换词及其同义词的原始 / 对抗性示例对中的理解保持一致,从而提高模型对预测和解释方面的鲁棒性。
Mar, 2022
基于大型语言模型 (LLMs) 的语言理解和生成能力,我们提出了 LLM-Attack,旨在使用 LLMs 生成既有效又自然的对抗性示例。实验结果表明 LLM-Attack 比基线模型在人类和 GPT-4 评估中表现优异,能够生成通常有效、自然,并保留语义意义、语法正确性和人类不可察觉性的对抗性示例。
Nov, 2023
本研究介绍了一种称为 A2T 的简单和改进的馅饼对抗训练过程,用于 NLP 模型的训练,可以使用更便宜的对手训练出具有鲁棒性的 NLP 模型,提高 NLP 模型的标准准确性、跨领域泛化性和可解释性。
Sep, 2021