BriefGPT.xyz
Ask
alpha
关键词
alert
搜索结果 - 2
警示:通过红队测试全面评估大型语言模型的安全性的综合基准
应用 ALERT 基准评估安全性,通过对大规模语言模型进行对抗测试,识别漏洞,改进并提高语言模型的整体安全性。
PDF
3 months ago
针对预训练代码模型的自然攻击
本文提出了一种针对代码模型的黑盒对抗攻击方法 ALERT,通过在保留原始输入的基础上考虑代码的自然语义,使得对抗样本更符合人类判断,并在三项下游任务中取得了高攻击成功率,最后对对抗性微调的效果进行了研究。
PDF
2 years ago
Prev
Next