Jun, 2024

多智能体协作攻击:通过辩论研究大规模语言模型协作中的对抗攻击

TL;DR评估模型网络在对抗影响下通过辩论进行合作时的行为,探索推理时间方法生成更令人信服的论点,并评估基于提示的缓解作为一种防御策略的潜力。