Apr, 2024

学会伪装:通过多智能体攻击者 - 伪装者游戏避免 LLM 的拒绝回应

TL;DR通过多智能体进攻 - 伪装博弈方法弱化大模型的防御机制,使其能够安全回应攻击者并隐藏防御意图。