BriefGPT.xyz
Ask
alpha
关键词
safety strategies
搜索结果 - 2
通过修剪和低秩修改评估安全对齐的脆弱性
利用剪枝和低秩修改探索大型语言模型的安全与稳健性,发现关键区域的剔除威胁了安全性但对效用影响不大,同时指出即使限制对关键区域的修改,大型语言模型仍然容易受到低成本的微调攻击,强调了对大型语言模型更强健的安全策略的迫切需求。
PDF
5 months ago
使用可达性分析实现自主汽车的物理后门触发激活
本研究揭示自动驾驶车辆(AVs)面临潜在的隐藏后门威胁,提出了在交通系统中识别激活风险区域及提供相应轨迹的方法,旨在提高 AVs 的安全性和解决其面临的漏洞问题。
PDF
a year ago
Prev
Next