Feb, 2024

往返翻译防御大型语言模型越狱攻击

TL;DR通过往返翻译(RTT)方法防御大规模语言模型(LLM)上的社会工程攻击,提出了一种多功能、轻量级且可转移的算法,成功缓解了超过 70% 的攻击,并且减少了 MathsAttack 的攻击成功率近 40%。