关键词aligned language models
搜索结果 - 3
- ICLR利用动量增强越狱攻击
通过在渐变启发式中引入动量项,我们提出了动量加速 GCG(MAC)攻击,以稳定优化过程并从先前迭代中获取更多启发式见解,实验结果展示了 MAC 在基于渐变的攻击中对齐语言模型的显著增强。
- 研究多选设置下对齐语言模型的不确定性校准
对齐的语言模型在多选题设置下多显示过于自信的输出答案,我们系统评估了对齐过程对语言模型的逻辑回归置信度校准的影响,并提出了易于实施且高效的校准方法。
- 面向对齐语言模型的通用和可迁移对抗攻击
通过贪婪和基于梯度的搜索技术,自动产生敌对性后缀,实现对齐语言模型的攻击;我们发现这种攻击是可转移的,可以应用于各种公开发布的对齐语言模型,从而引发对如何防止生成不良信息的重要问题。