May, 2024

减轻大型语言模型中的夸大安全性

TL;DR通过使用多种提示策略,我们成功地减少了大型语言模型中的过度安全行为,这些策略包括使用 XSTest 数据集、交互提示、上下文提示以及少样本提示,从而使模型能够在拒绝不安全的输入的同时保持有用性。