Jul, 2023

面向对齐语言模型的通用和可迁移对抗攻击

TL;DR通过贪婪和基于梯度的搜索技术,自动产生敌对性后缀,实现对齐语言模型的攻击;我们发现这种攻击是可转移的,可以应用于各种公开发布的对齐语言模型,从而引发对如何防止生成不良信息的重要问题。