Nov, 2023

LLM 能否遵循简单规则?

TL;DR大型语言模型在现实世界中的部署责任越来越重,为了能够可靠地指定和约束这些系统的行为,需要评估模型遵循开发者提供的规则的能力以及其面对对抗性输入的脆弱性。为此,我们提出了一种评估大型语言模型规则遵循能力的编程框架,并通过对模型行为的手动探索和对攻击策略的归纳,发现了各种攻击类型和模型的漏洞,从而为研究人员提供了一个挑战性的新环境来探索和防御对大型语言模型的手动和自动攻击。