BriefGPT.xyz
Ask
alpha
关键词
self-critique
搜索结果 - 2
合并提升自我审查对抗越狱攻击
通过融合批评模型和自我批评能力,将大型语言模型(LLM)微调于经过净化的合成数据之上,以提高其对抗性提示的自我批评能力和鲁棒性,从而显著降低攻击者的攻击成功率,为抵御越狱攻击提供了一种有前景的防御机制。
PDF
25 days ago
大型语言模型的批判能力
这项研究探索了大语言模型的批判能力,并开发了一个评估框架来评估模型的能力,发现批判一般对大多数模型来说都很具有挑战性,而自我批判尤其困难。研究还介绍了一种名为自我检查的简单而有效的基准方法,以提高各种模型的任务表现。希望这项研究能为理解大语
→
PDF
9 months ago
Prev
Next