BriefGPT.xyz
大模型
Ask
alpha
关键词
safeguard
搜索结果 - 2
ICML
PARDEN,你能重复一遍吗?通过重复防御越狱
本文提出了一种名为 PARDEN 的方法,通过要求模型重复自己的输出来检测和减少 Large Language Models(LLMs)的安全风险,该方法在监测入狱风险方面明显优于现有方法。
PDF
2 months ago
大型语言文本生成实时保障框架
LLMSafeGuard 是一个轻量级框架,通过将外部验证器集成到束搜索算法中,在实时中实现 LLM 文本生成的安全的保障。LLMSafeGuard 在去毒化任务和版权保护任务中表现出优越的性能,减少了 LLM 输出的有毒评分,并减小了版权
→
PDF
2 months ago
Prev
Next