Oct, 2023
Denevil:通过指令学习解读和引导大型语言模型的道德价值
Denevil: Towards Deciphering and Navigating the Ethical Values of Large
Language Models via Instruction Learning
TL;DR利用道德基金会理论,本研究探讨了伦理价值观,并提出了针对大型语言模型的价值漏洞的新型提示生成算法DeNEVIL,并构建了包含2,397个提示的高质量数据集MoralPrompt,使用VILMO进行伦理价值观的校准,在研究大型语言模型的伦理价值观方面取得了有前途的初步成果。