Oct, 2023

Denevil:通过指令学习解读和引导大型语言模型的道德价值

TL;DR利用道德基金会理论,本研究探讨了伦理价值观,并提出了针对大型语言模型的价值漏洞的新型提示生成算法 DeNEVIL,并构建了包含 2,397 个提示的高质量数据集 MoralPrompt,使用 VILMO 进行伦理价值观的校准,在研究大型语言模型的伦理价值观方面取得了有前途的初步成果。