Mar, 2024

RigorLLM:大型语言模型抵御不良内容的弹性防护

TL;DRRigorLLM 是一种新颖的框架,通过多方面的方法包括基于能源的训练数据增强、通过极小化最大优化为输入优化安全后缀和通过融合 KNN 和 LLMs 的基于数据增强的模型来高效有效地调节 LLMs 的有害和不安全输入和输出,从而提供了一种强大的有害内容调节解决方案。与现有基准如 OpenAI API 和 Perspective API 相比,RigorLLM 不仅在检测有害内容方面表现出色,而且对越狱攻击表现出无与伦比的韧性。限制优化和融合防护栏方法的创新应用代表了发展更安全可靠的 LLMs 的重要进展,为应对不断演进的数字威胁树立了新的内容调节框架标准。