Oct, 2023

破解、模仿、修复:通过生成人类攻击提高鲁棒性

TL;DR通过有限的人类对抗样本生成更有用的对抗样本,提高模型鲁棒性,对抗训练框架在 ANLI 和仇恨言论检测数据集中展示了其优势,同时训练合成对抗样本提高了模型对未来轮次的鲁棒性。