ICMLMay, 2024

PARDEN,你能重复一遍吗?通过重复防御越狱

TL;DR本文提出了一种名为 PARDEN 的方法,通过要求模型重复自己的输出来检测和减少 Large Language Models(LLMs)的安全风险,该方法在监测入狱风险方面明显优于现有方法。