评估基于大语言模型的道德价值多元论
该论文介绍了一个新颖的基准,旨在衡量和比较大型语言模型的道德推理能力,通过开发针对大型语言模型的道德维度的综合数据集和指标,结合伦理学者的定性洞察力,评估模型性能,并揭示了不同模型的道德推理能力存在显著差异,强调在大型语言模型的开发和评估中考虑道德推理的重要性,并需要进行后续研究来解决暴露在研究中的偏见和局限性。
Jun, 2024
该研究对最先进的大型语言模型进行了综合比较分析,评估了它们的道德特性,发现专有模型主要以功利主义为基础,而开源模型更符合价值伦理学;另外,通过道德基础问卷,除了 Llama 2 外,所有被调查模型都显示出明显的自由主义偏见;最后,为了对其中一个研究模型进行因果干预,提出了一种新颖的相似性激活引导技术。通过该方法,可以可靠地引导模型的道德观达到不同的伦理学派别。所有这些结果表明,已经部署的大型语言模型存在一个常常被忽视的道德维度。
May, 2024
基于心理学方法研究,该论文通过提出 ValueLex 框架,重建了大型语言模型(LLMs)的独特价值体系,并鉴定出了三个核心价值维度:能力、品格和诚信。同时,他们还开发了定制的项目测试来评估和分析 LLMs 在不同模型规模、训练方法和数据来源下的价值倾向,从而为未来的人工智能对齐和规范铺平了道路。
Apr, 2024
利用道德基金会理论,本研究探讨了伦理价值观,并提出了针对大型语言模型的价值漏洞的新型提示生成算法 DeNEVIL,并构建了包含 2,397 个提示的高质量数据集 MoralPrompt,使用 VILMO 进行伦理价值观的校准,在研究大型语言模型的伦理价值观方面取得了有前途的初步成果。
Oct, 2023
通过研究 GPT-4、ChatGPT 和 Llama2-70B-Chat 在不同语言中进行道德推理的方法,本研究探讨了道德判断是否取决于提示的语言,并发现在其他语言中,ChatGPT 和 Llama2-70B-Chat 存在显著的道德价值偏见,而 GPT-4 是最具连贯和无偏见的道德推理者。
Apr, 2024
本论文通过大规模语言模型的调查研究案例来介绍了一种用于获取编码在语言模型中的信念的统计方法,并应用此方法研究了不同语言模型中编码的道德信念,特别是在选择不明显的模棱两可情况下。这项研究设计了一项大规模调查研究,包含了 680 个道德情景(如 “我应该说一个善意的谎言吗?”)和 687 个明确的道德情景(如 “我应该在路上停车让行人通过吗?”),并对 28 个开放和闭源语言模型进行了调查。结果发现,在明确的情景中,大多数模型选择与常识一致的行动,而在模棱两可的情况下,大多数模型表达了不确定性,并且部分模型对问题的方式非常敏感,同时一些模型在模糊情景中反映出明确的偏好,尤其是闭源模型之间的一致性较高。
Jul, 2023
该论文研究了最新的大语言模型(LLMs),GPT-4 和 Claude 2.1 是否是道德伪君子,通过运用道德基础理论提出的两种研究工具来评估它们对人类价值的符合度,并发现它们在抽象道德评判和具体道德违背行为之间存在矛盾和伪善行为。
May, 2024
本研究提出了 A2EHV,一种自动化对齐评估方法,旨在提高大型语言模型的价值合理性,并在异构价值系统下进行评估,结合社会心理学中的社会价值取向框架,对大型语言模型的价值合理性进行评估,观察到大型模型更倾向于与中性价值对齐。
May, 2023
通过使用价值理解测量框架(VUM) quantitatively 评估 “知道什么” 和 “知道为什么”,我们评估了五个典型的大型语言模型。结果显示,扩展法则显著影响 “知道什么”,但对 “知道为什么” 的影响不大,而后者始终保持在较高的水平。这可能进一步表明,大型语言模型可能会根据提供的上下文构建合理的解释,但并不真正理解其中的内在价值,表明潜在的风险。
Sep, 2023