BriefGPT.xyz
Ask
alpha
关键词
language model vulnerabilities
搜索结果 - 1
ADVSCORE:对对抗性基准评估与创建的度量
通过 ADVSCORE 量化和揭示数据集的对抗特征,同时使用 ADVSCORE 评估高质量对抗数据集,验证其在愚弄模型而不愚弄人类方面的能力,并揭示人类写作所使用的愚弄模型而不愚弄人类的对抗策略,从而指导揭示语言模型的弱点和生成可靠的对抗样
→
PDF
12 days ago
Prev
Next