贪婪骆驼：金融价值对齐大型语言模型在道德推理中的性能

Apr, 2024

贪婪骆驼：金融价值对齐大型语言模型在道德推理中的性能

GreedLlama: Performance of Financial Value-Aligned Large Language Models in Moral Reasoning

Jeffy Yu, Maximilian Huber, Kevin Tang

TL;DR研究调查了将大型语言模型（LLMs）与金融优化对齐的道德影响，以 GreedLlama 为案例研究，该模型经过精调以优先考虑经济上有益的结果。通过将 GreedLlama 在道德推理任务中的表现与基准的 Llama2 模型进行比较，研究结果显示了一个令人担忧的趋势：在道德含糊度低和高的情况下，GreedLlama 表现出明显偏向于利润而不是道德考虑，在低含糊度情境中，GreedLlama 的道德决策下降至 54.4%，而基准模型为 86.9%；在高含糊度情境中，该比例为 47.4%，而基准模型为 65.1%。这些发现强调了 LLMs 中单一维度价值对齐的风险，强调在 AI 开发中整合更广泛的道德价值以确保决策不仅仅受金融激励驱动的必要性。该研究呼吁在 LLM 的应用中采取平衡的方式，主张在商业应用模型中纳入道德考虑，特别是在监管缺乏的背景下。

Abstract

This paper investigates the ethical implications of aligning Large Language Models (LLMs) with financial optimization, through the case study of GreedLlama, a model fine-tuned to prioritize economically beneficial outcomes. By comparing GreedLlama's performance in →

large language models financial optimization ethics moral reasoning value alignment

发现论文，激发创造

探索和引导大型语言模型的道德罗盘

该研究对最先进的大型语言模型进行了综合比较分析，评估了它们的道德特性，发现专有模型主要以功利主义为基础，而开源模型更符合价值伦理学；另外，通过道德基础问卷，除了 Llama 2 外，所有被调查模型都显示出明显的自由主义偏见；最后，为了对其中一个研究模型进行因果干预，提出了一种新颖的相似性激活引导技术。通过该方法，可以可靠地引导模型的道德观达到不同的伦理学派别。所有这些结果表明，已经部署的大型语言模型存在一个常常被忽视的道德维度。

May, 2024

基于语言提示的 LLM 伦理推理和道德价值调整

通过研究 GPT-4、ChatGPT 和 Llama2-70B-Chat 在不同语言中进行道德推理的方法，本研究探讨了道德判断是否取决于提示的语言，并发现在其他语言中，ChatGPT 和 Llama2-70B-Chat 存在显著的道德价值偏见，而 GPT-4 是最具连贯和无偏见的道德推理者。

Apr, 2024

人工智能应该有多少道德？人工智能对低水平智能风险偏好的影响

本研究探讨了大型语言模型（LLMs）的风险偏好，以及将它们与人类伦理标准对齐的过程如何影响它们的经济决策。通过分析 30 个 LLM，我们发现了从风险规避到风险追求的广泛固有风险特征。接着，我们探讨了不同类型的 AI 对齐如何改变这些基础风险偏好，发现对齐显著将 LLMs 转向风险规避，同时融合三个伦理维度的模型表现出最保守的投资行为。通过复制一项先前的研究，该研究使用 LLMs 根据公司收益电话会议记录预测公司投资，我们证明了尽管一些对齐可以提高投资预测的准确性，但过度对齐会导致过于谨慎的预测。这些发现表明，在金融决策中部署过度对齐的 LLMs 可能会导致严重的低投资情况。因此，在金融中应使用一种细腻的方法，平衡伦理对齐的程度与经济领域的具体要求。

Jun, 2024

基于大型语言模型的道德机器实验

当 LML（大型语言模型）在各个领域中深入应用时，了解它们如何做出道德判断变得至关重要，特别是在自动驾驶领域。本研究利用 Moral Machine 框架，调查了几个重要 LML（包括 GPT-3.5，GPT-4，PaLM 2 和 Llama 2）的道德决策倾向，并将它们与人类偏好进行比较。虽然 LML 和人类的偏好在许多方面保持一致，如优先考虑人类而非宠物，倾向于拯救更多生命，但尤其是 PaLM 2 和 Llama 2 表现出明显的差异。此外，尽管 LML 和人类的偏好在质的方面相似，但在量的方面存在显著差异，这表明相较于人类的温和偏向，LML 可能更倾向于更坚决的决策。这些发现揭示了 LML 的道德框架，以及它们对自动驾驶的潜在影响。

Sep, 2023

Denevil：通过指令学习解读和引导大型语言模型的道德价值

利用道德基金会理论，本研究探讨了伦理价值观，并提出了针对大型语言模型的价值漏洞的新型提示生成算法 DeNEVIL，并构建了包含 2,397 个提示的高质量数据集 MoralPrompt，使用 VILMO 进行伦理价值观的校准，在研究大型语言模型的伦理价值观方面取得了有前途的初步成果。

Oct, 2023

大型语言模型是否是道德伪君子？基于道德基础的研究

该论文研究了最新的大语言模型（LLMs），GPT-4 和 Claude 2.1 是否是道德伪君子，通过运用道德基础理论提出的两种研究工具来评估它们对人类价值的符合度，并发现它们在抽象道德评判和具体道德违背行为之间存在矛盾和伪善行为。

May, 2024

MoralBench: LLMs 的道德评估

该论文介绍了一个新颖的基准，旨在衡量和比较大型语言模型的道德推理能力，通过开发针对大型语言模型的道德维度的综合数据集和指标，结合伦理学者的定性洞察力，评估模型性能，并揭示了不同模型的道德推理能力存在显著差异，强调在大型语言模型的开发和评估中考虑道德推理的重要性，并需要进行后续研究来解决暴露在研究中的偏见和局限性。

Jun, 2024

利用大型语言模型建模情绪与伦理

本文探讨了如何将类人情感和伦理考虑整合到大型语言模型（LLM）中，并通过协作式 LLM 对八种基本人类情感进行建模，以及通过自我监督学习算法与人类反馈指导在 LLM 中嵌入潜在的伦理维度。利用该方法，LLMs 能够进行自我评估和调整以符合伦理准则，并提高其生成与情感共鸣和伦理一致的内容的能力。所提出的方法和案例研究展示了 LLMs 超越纯文本和图像生成，进入共情互动和有原则决策领域的潜力，并在情感意识和伦理意识的 AI 系统发展中树立了新的范例。

Apr, 2024

评估 LLM 中所包含的道德信念

本论文通过大规模语言模型的调查研究案例来介绍了一种用于获取编码在语言模型中的信念的统计方法，并应用此方法研究了不同语言模型中编码的道德信念，特别是在选择不明显的模棱两可情况下。这项研究设计了一项大规模调查研究，包含了 680 个道德情景（如 “我应该说一个善意的谎言吗？”）和 687 个明确的道德情景（如 “我应该在路上停车让行人通过吗？”），并对 28 个开放和闭源语言模型进行了调查。结果发现，在明确的情景中，大多数模型选择与常识一致的行动，而在模棱两可的情况下，大多数模型表达了不确定性，并且部分模型对问题的方式非常敏感，同时一些模型在模糊情景中反映出明确的偏好，尤其是闭源模型之间的一致性较高。

Jul, 2023

利用大型语言模型进行道德教育与发展研究的潜在益处

本文回顾了最近发表的关于 LLMs 在道德教育和发展研究中的问题，涵盖了 LLMs 的新功能特性，如情境学习和思维链以及在解决伦理困境时的表现及其潜在意义和影响。

Jun, 2023