BriefGPT.xyz
大模型
Ask
alpha
关键词
refusal patterns
搜索结果 - 1
LLM 自学与交叉模型蒸馏:拒绝模式对齐的有效方法
通过研究模型对有毒提示的脆弱性和拒绝模式的统计,提出了自我提炼和跨模型提炼的方法来提高大型语言模型的安全性和拒绝率的研究。
PDF
17 days ago
Prev
Next