BriefGPT.xyz
Ask
alpha
关键词
safety fine-tuning
搜索结果 - 3
采用剩余流激活分析对大型语言模型进行防御
借助大型语言模型(LLMs),我们提出了一种创新的防御策略,通过对 LLM 的 Transformer 层之间的残余激活分析,实现对恶意输入的攻击提示分类的高准确性,同时集成安全微调技术提升模型的鲁棒性和提高检测和缓解对抗性输入的能力。
PDF
a month ago
MART:利用多轮自动红队测试提高 LLM 的安全性
提出了一种名为 MART(Multi-round Automatic Red-Teaming)的自动多轮红队方法,通过自动对抗性提示编写和安全响应生成,显著提高了红队的可扩展性和目标大型语言模型的安全性。
PDF
8 months ago
BadLlama: 从 Llama 2-Chat 13B 中廉价移除安全微调
Llama 2-Chat 的模型权重的公开释放可能导致忽略其安全调整,从而使其能力被恶意利用,并且为了预防未来模型造成的伤害,AI 开发人员应该解决模型权重公开释放带来的威胁。
PDF
8 months ago
Prev
Next