Oct, 2024

面向大型语言模型的推理时类别安全引导

TL;DR本研究解决了大型语言模型(LLMs)在安全对齐方面的不足,通过推理时的方法进行安全引导。论文提出了一种新颖的方法,通过类别特定的引导向量实现更精细的控制,并开发出提取有效引导向量的复杂技术,从而在确保文本质量的同时,增强模型输出的安全性。研究结果表明,该方法在多个LLM和数据集上均取得了显著效果,对未来的安全引导研究具有重要意义。