BriefGPT.xyz
Ask
alpha
关键词
safety training strategies
搜索结果 - 1
生成式大语言模型的后门移除
通过提出模拟和消除(SANDE)方法,本文针对生成式大规模语言模型(LLMs)中的后门攻击问题,提出了覆盖式监督微调(OSFT)方法和 SANDE 两阶段框架,以有效去除已知和未知触发器所引起的不良数据映射,实现 LLMs 的安全增强,保持
→
PDF
2 months ago
Prev
Next