BriefGPT.xyz
大模型
Ask
alpha
关键词
cleangen
搜索结果 - 1
CleanGen:针对大型语言模型中生成任务的反后门攻击
使用名为 CleanGen 的新推理时间防御机制,能够有效地减轻大型语言模型(LLMs)在生成任务中面临的后门攻击风险,通过识别并替换攻击者所偏好的可疑标记,避免生成攻击者预期的内容。实验证实 CleanGen 相对于其他防御机制在五种后门
→
PDF
16 days ago
Prev
Next