BriefGPT.xyz
大模型
Ask
alpha
关键词
alignment-breaking attacks
搜索结果 - 1
通过强鲁棒对齐的 LLM 防御对齐破坏攻击
最近,大型语言模型(LLMs)取得了明显的进展,并在各个领域得到广泛应用。然而,人们越来越担心 LLMs 可能被滥用以生成有害或恶意内容。本研究介绍了一种抵御潜在破坏对齐的攻击的强韧对齐语言模型(RA-LLM),它可以直接在现有的对齐语言模
→
PDF
10 months ago
Prev
Next