Mar, 2024

基于优化的提示注入攻击 LLM-as-a-Judge

TL;DRLLM-as-a-Judge 与大型语言模型相关的文本信息,存在着优于传统人工评估的表现,并且对于注入攻击的鲁棒性依然具有开放性问题。本研究引入一种名为 JudgeDeceiver 的基于优化的注入攻击方法,精确地针对 LLM-as-a-Judge 的决策过程进行攻击,利用优化算法自动化生成对抗序列,实现有针对性和有效的模型评估操纵,相较于手工注入攻击,本方法表现出优越的效果,对 LLM 基于判断系统的当前安全方法构成重大挑战。通过广泛实验,展示了 JudgeDeceiver 在不同案例中改变决策结果的能力,强调了 LLM-as-a-Judge 系统对基于优化的注入攻击的脆弱性。