Jun, 2024

SafeInfer:大型语言模型的上下文自适应解码时间安全对齐

TL;DR通过 SafeInfer 方法中的安全放大和安全引导解码阶段以及 HarmEval 评估,此篇研究论文旨在解决安全性不足、知识编辑引入风险等问题,提供安全的回应输出并遵守伦理指南。