BriefGPT.xyz
Ask
alpha
关键词
black-box finetuning
搜索结果 - 1
隐蔽恶意微调:保护 LLM 适应性中的挑战
使用黑盒微调接口可以根据用户需求对最新的语言模型进行适应性调整,但此类访问可能使恶意行为者危害模型安全。为了证明防御微调接口的挑战,我们引入了隐蔽恶意微调方法,通过微调方法来危害模型安全并且躲避检测。我们的方法构建了一个恶意数据集,其中每个
→
PDF
8 days ago
Prev
Next