Jun, 2024
SafeInfer:大型语言模型的上下文自适应解码时间安全对齐
SafeInfer: Context Adaptive Decoding Time Safety Alignment for Large Language Models
Somnath Banerjee, Soham Tripathy, Sayan Layek, Shanu Kumar, Animesh Mukherjee...
TL;DR通过 SafeInfer 方法中的安全放大和安全引导解码阶段以及 HarmEval 评估,此篇研究论文旨在解决安全性不足、知识编辑引入风险等问题,提供安全的回应输出并遵守伦理指南。