Apr, 2024

抑制拒绝:通过破解抑制性拒绝来破解 LLM

TL;DR利用 DSN 攻击对大型语言模型进行评估,通过集成评估方法有效地解决了常规评估方法中存在的限制问题。