Aug, 2024

重新思考语言模型的后门检测评估

TL;DR本研究针对语言模型中的后门攻击问题,探讨现有后门检测方法在实际应用中的鲁棒性。通过调整后门植入过程中的不同因素,发现现有方法的检测成功率受到模型在污染数据上训练强度的影响,特别是激进或保守训练的后门更难以检测。研究强调了现有检测器的鲁棒性不足以及当前基准构建的局限性。