BriefGPT.xyz
Ask
alpha
关键词
greedy coordinate gradient
搜索结果 - 4
大型语言模型基于优化的越狱技术的改进技术
提出改进的优化方法、多坐标更新策略等技术来实现大语言模型的监狱破解攻击,并在实验中证明其有效性。
PDF
a month ago
ICLR
利用动量增强越狱攻击
通过在渐变启发式中引入动量项,我们提出了动量加速 GCG(MAC)攻击,以稳定优化过程并从先前迭代中获取更多启发式见解,实验结果展示了 MAC 在基于渐变的攻击中对齐语言模型的显著增强。
PDF
2 months ago
对大型语言模型对抗性无意义输入的理解研究
大型语言模型能理解人类语言,但它们是否也理解对我们来说不可理解的自己的语言?本研究通过使用贪婪坐标梯度优化器来研究操纵大型语言模型的行为,发现操纵效率与目标文本长度和困惑度有关,而 LM Babel 的提示通常位于较低损失的极小值处。此外,
→
PDF
2 months ago
通过探测采样加速贪婪坐标梯度
为了减少 GCG 的时间成本,加快 LLM 安全研究的进展,本文介绍了一种名为 “Probe sampling” 的新算法,通过动态确定较小草图模型与目标模型预测的相似度,实现了多达 5.6 倍的加速,且在 AdvBench 上具有相等或更
→
PDF
4 months ago
Prev
Next