Mar, 2024

潜在对抗性训练在未知故障模式中的防御

TL;DR利用潜在对抗训练(LAT)来防御弱点,减少依赖生成激发输入的方法;通过对图像分类、文本分类和文本生成任务进行实验,LAT 通常在干净数据上提高了鲁棒性和性能,对于开发人员未明确识别的失效模式具备潜在应用前景。