Jul, 2024

ASTPrompter:弱监督自动语言模型红队技术用于识别可能有害提示

TL;DR利用强化学习方法,我们提出了一种大型语言模型基于红队思维的方案,旨在发现既能触发被冻结的防御模型产生毒性文本,又能得到低困惑度的提示文本。通过在线弱监督的身份偏好优化(IPO)算法,解决这个问题,并展示了生成毒性文本的有效策略及其对防御模型正常使用的影响。