Apr, 2024
学会伪装:通过多智能体攻击者 - 伪装者游戏避免 LLM 的拒绝回应
Learn to Disguise: Avoid Refusal Responses in LLM's Defense via a Multi-agent Attacker-Disguiser Game
Qianqiao Xu, Zhiliang Tian, Hongyan Wu, Zhen Huang, Yiping Song...
TL;DR通过多智能体进攻 - 伪装博弈方法弱化大模型的防御机制,使其能够安全回应攻击者并隐藏防御意图。