Apr, 2024

通过可控的大型语言模型实现安全性和帮助性平衡的响应

TL;DR我们提出通过在大型语言模型中控制安全性和有益性来平衡多种用例,采用训练无关和微调方法来分析在语言模型中控制安全性和有益性的挑战,并通过实验验证了我们的方法可以控制模型并提供帮助。