BriefGPT.xyz
Ask
alpha
关键词
gradient-based red teaming
搜索结果 - 1
ACL
基于梯度的语言模型红队测试
基于梯度的红队技术(GBRT)是一种自动生成多样的提示,很可能导致语言模型输出不安全回应的红队技术方法。通过将 LM 回应与安全分类器进行评分并通过冻结的安全分类器和 LM 进行反向传播来更新提示,我们训练了 GBRT。为了提高输入提示的连
→
PDF
5 months ago
Prev
Next