BriefGPT.xyz
Ask
alpha
关键词
harmful unintended behaviors
搜索结果 - 1
潜在对抗性训练在未知故障模式中的防御
利用潜在对抗训练(LAT)来防御弱点,减少依赖生成激发输入的方法;通过对图像分类、文本分类和文本生成任务进行实验,LAT 通常在干净数据上提高了鲁棒性和性能,对于开发人员未明确识别的失效模式具备潜在应用前景。
PDF
4 months ago
Prev
Next