Jan, 2025

更强的文本,更智能的模型:提高对抗防御基准的标准

TL;DR本文针对自然语言处理领域深度学习模型面临的对抗攻击脆弱性提出了一个全面的基准,填补了现有研究中的评估空白。研究中提出的基准涵盖多种数据集,评估了先进的防御机制,并扩展到单句分类、相似度识别、自然语言推理等关键任务。该工作为研究人员及从业者提供了重要资源,并为文本对抗防御领域的未来研究指明了方向。