Mar, 2024

SemRoDe: 针对词级攻击鲁棒的学习表示的宏观对抗训练

TL;DR我们提出了一种名为Semantic Robust Defence (SemRoDe)的新方法,通过Macro Adversarial Training策略增强了语言模型的鲁棒性,通过对话题领域的对抗样本进行关联,提高了模型对未知对抗样本的处理能力。