BriefGPT.xyz
Ask
alpha
关键词
exaggerated safety
搜索结果 - 2
减轻大型语言模型中的夸大安全性
通过使用多种提示策略,我们成功地减少了大型语言模型中的过度安全行为,这些策略包括使用 XSTest 数据集、交互提示、上下文提示以及少样本提示,从而使模型能够在拒绝不安全的输入的同时保持有用性。
PDF
2 months ago
安全调校型 LLaMAs:提升遵循指令大型语言模型安全性的经验教训
训练大型语言模型遵循指示能够使其在各种任务上表现更好,但完全符合的模型会遵循即使是最恶意的指示并且容易生成有害内容。本文提出了对强调帮助而不是安全性的模型安全性的担忧。我们展示了一些流行的经过指示调优的模型高度不安全。此外,我们证明了在训练
→
PDF
10 months ago
Prev
Next