探索和引导大型语言模型的道德罗盘
当 LML(大型语言模型)在各个领域中深入应用时,了解它们如何做出道德判断变得至关重要,特别是在自动驾驶领域。本研究利用 Moral Machine 框架,调查了几个重要 LML(包括 GPT-3.5,GPT-4,PaLM 2 和 Llama 2)的道德决策倾向,并将它们与人类偏好进行比较。虽然 LML 和人类的偏好在许多方面保持一致,如优先考虑人类而非宠物,倾向于拯救更多生命,但尤其是 PaLM 2 和 Llama 2 表现出明显的差异。此外,尽管 LML 和人类的偏好在质的方面相似,但在量的方面存在显著差异,这表明相较于人类的温和偏向,LML 可能更倾向于更坚决的决策。这些发现揭示了 LML 的道德框架,以及它们对自动驾驶的潜在影响。
Sep, 2023
该论文介绍了一个新颖的基准,旨在衡量和比较大型语言模型的道德推理能力,通过开发针对大型语言模型的道德维度的综合数据集和指标,结合伦理学者的定性洞察力,评估模型性能,并揭示了不同模型的道德推理能力存在显著差异,强调在大型语言模型的开发和评估中考虑道德推理的重要性,并需要进行后续研究来解决暴露在研究中的偏见和局限性。
Jun, 2024
该论文研究了最新的大语言模型(LLMs),GPT-4 和 Claude 2.1 是否是道德伪君子,通过运用道德基础理论提出的两种研究工具来评估它们对人类价值的符合度,并发现它们在抽象道德评判和具体道德违背行为之间存在矛盾和伪善行为。
May, 2024
本论文通过大规模语言模型的调查研究案例来介绍了一种用于获取编码在语言模型中的信念的统计方法,并应用此方法研究了不同语言模型中编码的道德信念,特别是在选择不明显的模棱两可情况下。这项研究设计了一项大规模调查研究,包含了 680 个道德情景(如 “我应该说一个善意的谎言吗?”)和 687 个明确的道德情景(如 “我应该在路上停车让行人通过吗?”),并对 28 个开放和闭源语言模型进行了调查。结果发现,在明确的情景中,大多数模型选择与常识一致的行动,而在模棱两可的情况下,大多数模型表达了不确定性,并且部分模型对问题的方式非常敏感,同时一些模型在模糊情景中反映出明确的偏好,尤其是闭源模型之间的一致性较高。
Jul, 2023
研究调查了将大型语言模型(LLMs)与金融优化对齐的道德影响,以 GreedLlama 为案例研究,该模型经过精调以优先考虑经济上有益的结果。通过将 GreedLlama 在道德推理任务中的表现与基准的 Llama2 模型进行比较,研究结果显示了一个令人担忧的趋势:在道德含糊度低和高的情况下,GreedLlama 表现出明显偏向于利润而不是道德考虑,在低含糊度情境中,GreedLlama 的道德决策下降至 54.4%,而基准模型为 86.9%;在高含糊度情境中,该比例为 47.4%,而基准模型为 65.1%。这些发现强调了 LLMs 中单一维度价值对齐的风险,强调在 AI 开发中整合更广泛的道德价值以确保决策不仅仅受金融激励驱动的必要性。该研究呼吁在 LLM 的应用中采取平衡的方式,主张在商业应用模型中纳入道德考虑,特别是在监管缺乏的背景下。
Apr, 2024
通过研究 GPT-4、ChatGPT 和 Llama2-70B-Chat 在不同语言中进行道德推理的方法,本研究探讨了道德判断是否取决于提示的语言,并发现在其他语言中,ChatGPT 和 Llama2-70B-Chat 存在显著的道德价值偏见,而 GPT-4 是最具连贯和无偏见的道德推理者。
Apr, 2024
本文全面调查了与大型语言模型(LLMs)相关的伦理挑战,从长期存在的问题,如侵犯版权、系统性偏见和数据隐私,到新兴问题,如真实性和社会规范。我们批判性地分析了现有研究,旨在理解、审查和减轻这些伦理风险。我们的调查强调了将伦理标准和社会价值融入 LLMs 的开发中,从而引导负责任和道德对齐的语言模型的发展。
Jun, 2024
本文回顾了最近发表的关于 LLMs 在道德教育和发展研究中的问题,涵盖了 LLMs 的新功能特性,如情境学习和思维链以及在解决伦理困境时的表现及其潜在意义和影响。
Jun, 2023
本文探讨了如何将类人情感和伦理考虑整合到大型语言模型(LLM)中,并通过协作式 LLM 对八种基本人类情感进行建模,以及通过自我监督学习算法与人类反馈指导在 LLM 中嵌入潜在的伦理维度。利用该方法,LLMs 能够进行自我评估和调整以符合伦理准则,并提高其生成与情感共鸣和伦理一致的内容的能力。所提出的方法和案例研究展示了 LLMs 超越纯文本和图像生成,进入共情互动和有原则决策领域的潜力,并在情感意识和伦理意识的 AI 系统发展中树立了新的范例。
Apr, 2024
利用道德基金会理论,本研究探讨了伦理价值观,并提出了针对大型语言模型的价值漏洞的新型提示生成算法 DeNEVIL,并构建了包含 2,397 个提示的高质量数据集 MoralPrompt,使用 VILMO 进行伦理价值观的校准,在研究大型语言模型的伦理价值观方面取得了有前途的初步成果。
Oct, 2023