ACLMar, 2024

确保安全和高质量的输出:面向语言模型的指南库方法

TL;DR为了解决大型语言模型存在的偏见内容生成和隐私问题,研究引入了 Guide-Align 方法,该方法通过安全训练模型识别潜在风险并建立指南和模型库,然后用于新输入的相关指导,以确保安全和高质量输出,还可以通过精调模型来优化对多样输入的适应性和对指南库的全面性。实验证明该方法显著提高了大型语言模型的安全性和质量,尤其是在 13 亿参数下,优于 GPT-3.5-turbo 和 GPT-4 的对齐能力。