Sep, 2024
利用解释增强自然语言推理中的对抗鲁棒性
Enhancing adversarial robustness in Natural Language Inference using
explanations
TL;DR本研究针对自然语言推理(NLI)中模型容易受到对抗攻击的缺陷,提出了一种利用自然语言解释作为模型无关的防御策略。通过大量实验,我们证明了通过针对解释进行分类器微调可以显著提高模型在面对各种对抗攻击时的鲁棒性。此外,我们还探讨了常用语言生成指标与人类感知的相关性,为生成的解释提供了验证标准,助力构建更强大的NLI模型。