BriefGPT.xyz
大模型
Ask
alpha
关键词
parden
搜索结果 - 1
ICML
PARDEN,你能重复一遍吗?通过重复防御越狱
本文提出了一种名为 PARDEN 的方法,通过要求模型重复自己的输出来检测和减少 Large Language Models(LLMs)的安全风险,该方法在监测入狱风险方面明显优于现有方法。
PDF
2 months ago
Prev
Next