Jul, 2024

Imposter.AI:针对一致性大型语言模型的隐蔽意图对抗攻击

TL;DR本研究解决了大型语言模型(LLM)在面对对抗输入时的潜在脆弱性。提出了一种新颖的攻击机制,通过人类对话策略提取有害信息,其中包括将恶意问题分解为看似无害的子问题等策略。实验结果表明,所提方法在有效性上显著优于传统攻击方法,提出了如何识别对话中最终意图是否恶意的重要问题。