Aug, 2024

语言模型在多样化角色扮演中展现稳定的价值取向

TL;DR本研究解决了大型语言模型在不同角色扮演下展现价值取向一致性的问题,提出了角色扮演大规模方法,系统地分析模型的反应。这一方法揭示了语言模型在多样角色中保持一致的反应模式,表明其内在倾向的深层编码。研究结果对基础模型的价值对齐讨论具有重要贡献,并展示了该方法在发现语言模型中编码偏见的有效性。