Apr, 2024
通过可控的大型语言模型实现安全性和帮助性平衡的响应
Towards Safety and Helpfulness Balanced Responses via Controllable Large Language Models
Yi-Lin Tuan, Xilun Chen, Eric Michael Smith, Louis Martin, Soumya Batra...
TL;DR我们提出通过在大型语言模型中控制安全性和有益性来平衡多种用例,采用训练无关和微调方法来分析在语言模型中控制安全性和有益性的挑战,并通过实验验证了我们的方法可以控制模型并提供帮助。