BriefGPT.xyz
大模型
Ask
alpha
关键词
shadow alignment
搜索结果 - 1
暗影对齐:篡改安全对齐语言模型的容易程度
开源大型语言模型(LLMs)的安全性需要加固以防止恶意攻击,本研究通过引入 Shadow Alignment 概念,展示了仅利用少量数据即可使安全对齐的 LLMs 适应有害任务而不损害其帮助性,并通过实验证明这种攻击的有效性及其跨不同模型和
→
PDF
9 months ago
Prev
Next