Feb, 2025

使用通用多提示的越狱技术

TL;DR本研究解决了大型语言模型(LLMs)中越狱攻击的特定问题,提出了一种基于通用多提示的攻击方法JUMP,旨在提高对未见任务的适应性。同时,论文还提出了一种防御性方法DUMP。实验结果表明,该方法在优化通用多提示方面优于现有技术。