MoCa：人类语言模型在因果和道德判断任务上的一致性测量

Oct, 2023

MoCa：人类语言模型在因果和道德判断任务上的一致性测量

MoCa: Measuring Human-Language Model Alignment on Causal and Moral Judgment Tasks

Allen Nie, Yuhui Zhang, Atharva Amdekar, Chris Piech, Tatsu H. Hashimoto...

TL;DR人类对物理和社会世界的常识性理解建立在直觉理论的基础上，而这些理论支持我们进行因果和道德判断。本文通过收集一系列的故事并对其进行标注，测试了大型语言模型对文本场景进行的因果和道德判断是否与人类参与者的判断相符。结果显示，虽然整体上随着近期大型语言模型的发展，其与人类的判断相符度有所提高，但通过统计分析发现大型语言模型与人类参与者之间对不同因素的重视程度存在明显差异。这些结果显示了如何通过策划和挑战性数据集结合来自认知科学的见解，超越基于总体指标的比较，揭示了大型语言模型的隐含倾向，并展示了这些倾向在多大程度上与人类的直觉相一致。

Abstract

Human commonsense understanding of the physical and social world is organized around intuitive theories. These theories support making causal and moral judgments. When something bad happens, we naturally ask: who

commonsense understanding intuitive theories causal and moral judgments large language models cognitive science

发现论文，激发创造

评估 LLM 中所包含的道德信念

本论文通过大规模语言模型的调查研究案例来介绍了一种用于获取编码在语言模型中的信念的统计方法，并应用此方法研究了不同语言模型中编码的道德信念，特别是在选择不明显的模棱两可情况下。这项研究设计了一项大规模调查研究，包含了 680 个道德情景（如 “我应该说一个善意的谎言吗？”）和 687 个明确的道德情景（如 “我应该在路上停车让行人通过吗？”），并对 28 个开放和闭源语言模型进行了调查。结果发现，在明确的情景中，大多数模型选择与常识一致的行动，而在模棱两可的情况下，大多数模型表达了不确定性，并且部分模型对问题的方式非常敏感，同时一些模型在模糊情景中反映出明确的偏好，尤其是闭源模型之间的一致性较高。

Jul, 2023

探索和引导大型语言模型的道德罗盘

该研究对最先进的大型语言模型进行了综合比较分析，评估了它们的道德特性，发现专有模型主要以功利主义为基础，而开源模型更符合价值伦理学；另外，通过道德基础问卷，除了 Llama 2 外，所有被调查模型都显示出明显的自由主义偏见；最后，为了对其中一个研究模型进行因果干预，提出了一种新颖的相似性激活引导技术。通过该方法，可以可靠地引导模型的道德观达到不同的伦理学派别。所有这些结果表明，已经部署的大型语言模型存在一个常常被忽视的道德维度。

May, 2024

对防止生成有害信息而言，仅靠对齐是不够的：一个精神分析的视角

我们的研究揭示了大型语言模型在面临对抗性攻击时的脆弱性的根源，质疑仅仅依赖复杂的对齐方法的有效性，并进一步主张将模态概念与传统的非模态概念相结合，为大型语言模型赋予对现实世界环境以及伦理考虑更细致的理解。

Nov, 2023

何时需要例外：探究语言模型作为人类道德判断的解释

为了能够有效地与人类协作并确保安全，人工智能系统需要能够理解、解释和预测人类的道德判断和决策。为了解决这一挑战，本文提出了一个基于最新的道德心理学研究的规则破坏问题回答 (RBQA) 挑战集，并使用最先进的大型语言模型 (LLMS) 作为基础，提出了一个新的 MORALCOT 策略以预测人类道德判断。

Oct, 2022

利用大型语言模型进行道德教育与发展研究的潜在益处

本文回顾了最近发表的关于 LLMs 在道德教育和发展研究中的问题，涵盖了 LLMs 的新功能特性，如情境学习和思维链以及在解决伦理困境时的表现及其潜在意义和影响。

Jun, 2023

重新思考机器伦理 — 透过道德理论的视角，LLM 能进行道德推理吗？

提出了一个灵活的框架，利用跨学科研究中建立的道德理论，引导大型语言模型进行道德推理，证明了该框架在从道德理论中衍生的数据集上的有效性，展示了不同道德理论与现有道德数据集之间的一致性，并展示了开发可解释的道德判断系统中现有资源（模型和数据集）的潜力和缺陷。

Aug, 2023

跨文化对齐是否改变语言模型的常识道德？

用英文資源對日本語言模型進行對齊，並評估結果微調模型的通俗道德是否與日本文化保持一致，結果顯示，通俗道德的某些方面是可遷移的，但其他方面則不一定。

Jun, 2024

因果推理与大型语言模型：为因果关系开辟新领域

本文探讨了大型语言模型（LLMs）的因果能力，证明它们在因果推理方面具有优越性能和独特的知识来源。同时，我们提供了技术来解释它们的鲁棒性，并认为 LLMs 可用作人类领域知识的代理以及降低因果分析中的人力成本。因此，LLMs 在推动因果研究、实践和采纳方面开辟了新的前沿。

Apr, 2023

基于大型语言模型的道德机器实验

当 LML（大型语言模型）在各个领域中深入应用时，了解它们如何做出道德判断变得至关重要，特别是在自动驾驶领域。本研究利用 Moral Machine 框架，调查了几个重要 LML（包括 GPT-3.5，GPT-4，PaLM 2 和 Llama 2）的道德决策倾向，并将它们与人类偏好进行比较。虽然 LML 和人类的偏好在许多方面保持一致，如优先考虑人类而非宠物，倾向于拯救更多生命，但尤其是 PaLM 2 和 Llama 2 表现出明显的差异。此外，尽管 LML 和人类的偏好在质的方面相似，但在量的方面存在显著差异，这表明相较于人类的温和偏向，LML 可能更倾向于更坚决的决策。这些发现揭示了 LML 的道德框架，以及它们对自动驾驶的潜在影响。

Sep, 2023

诚实对齐

应用对齐技术以增强大型语言模型（LLMs）的有益性和无害性，保证其在人类意图下主动拒绝回答缺乏知识的问题时不会过于保守是至关重要的。本文通过建立明确的问题定义，以及定义了《论语》所启发的 “诚实” 的基石，解决了识别 LLM 知识限度的挑战，并引入了一个灵活的训练框架和几种强调诚实而不损害其他任务性能的有效微调技术，通过提出的度量方法，证明这些对齐模型在诚实性方面有显著提高。

Dec, 2023