BriefGPT.xyz
大模型
Ask
alpha
关键词
backdoor triggers
搜索结果 - 2
在指导调整期间学习对大型语言模型进行毒化
通过设计一种新的数据污染攻击,本研究进一步识别了 LLMs 中的安全风险,并提出了一种梯度引导的后门触发器学习方法,以高效地识别对手的触发器,并确保对传统防御的逃避,同时保持内容完整性。
PDF
4 months ago
使用后门技术对预训练语言模型进行水印处理
研究表明,通过在预训练模型中嵌入后门触发器作为水印的方式,可以保护知识产权并避免遗忘现象的发生,同时还提出了一种使用常见单词组合作为后门触发器的方法,并在多个数据集上进行了测试。
PDF
2 years ago
Prev
Next