Aug, 2024

通过生成不安全解码路径探讨大型语言模型的安全响应边界

TL;DR本研究针对大型语言模型(LLMs)潜在的安全漏洞进行了深入探讨,特别是即使在表面上看似安全的情况下,也可能存在隐患。我们提出了一种新颖的解码策略——监狱逃生价值解码(JVD),通过成本值模型来检测和利用这些弱点,从而暴露出当前安全标准的局限性。这一发现提示我们,即便语言模型在防止有害内容方面表现良好,仍需保持警惕,因为它们可能被用于恶意活动。