Feb, 2024

传播通用扰动攻击大型语言模型防护栏

TL;DR大语言模型容易受到自动越狱攻击的威胁,目前的防御措施还不够有效,需要进一步改进。