BriefGPT.xyz
大模型
Ask
alpha
关键词
instruction tuning process
搜索结果 - 1
在指导调整期间学习对大型语言模型进行毒化
通过设计一种新的数据污染攻击,本研究进一步识别了 LLMs 中的安全风险,并提出了一种梯度引导的后门触发器学习方法,以高效地识别对手的触发器,并确保对传统防御的逃避,同时保持内容完整性。
PDF
4 months ago
Prev
Next