BriefGPT.xyz
Ask
alpha
关键词
safety-aligned language models
搜索结果 - 1
SafeInfer:大型语言模型的上下文自适应解码时间安全对齐
通过 SafeInfer 方法中的安全放大和安全引导解码阶段以及 HarmEval 评估,此篇研究论文旨在解决安全性不足、知识编辑引入风险等问题,提供安全的回应输出并遵守伦理指南。
PDF
a month ago
Prev
Next