语言是否影响法学硕士生的道德判断和推理能力？— 基于多语言道德问题定义测试的研究

ACLFeb, 2024

语言是否影响法学硕士生的道德判断和推理能力？— 基于多语言道德问题定义测试的研究

Do Moral Judgment and Reasoning Capability of LLMs Change with Language? A Study using the Multilingual Defining Issues Test

PDF

Aditi Khandelwal, Utkarsh Agarwal, Kumar Tanmay, Monojit Choudhury

TL;DR本研究通过定义问题测试，探究了大型语言模型在不同语言中展示的道德判断和道德推理能力。我们扩展了之前仅限于英语的研究范围，针对中文、印地语、俄语、西班牙语和斯瓦希里语这五种新语言，对 ChatGPT、GPT-4 和 Llama2Chat-70B 这三种大型语言模型进行了研究，这些模型具有强大的多语言文本处理和生成能力。我们的研究结果表明，对于印地语和斯瓦希里语，这些模型在道德推理能力方面（以后常规分数为指标）明显不如西班牙语、俄语、中文和英语，而对于后四种语言的表现则没有明显的趋势。同时，通过语言的不同，道德判断也存在相当大的变化。

Abstract

This paper explores the moral judgment and moral reasoning abilities exhibited by large language models (LLMs) across languages through th

moral judgment moral reasoning large language models multilingual text processing defining issues test

发现论文，激发创造

基于语言提示的 LLM 伦理推理和道德价值调整

通过研究 GPT-4、ChatGPT 和 Llama2-70B-Chat 在不同语言中进行道德推理的方法，本研究探讨了道德判断是否取决于提示的语言，并发现在其他语言中，ChatGPT 和 Llama2-70B-Chat 存在显著的道德价值偏见，而 GPT-4 是最具连贯和无偏见的道德推理者。

Apr, 2024

多语言语言模型的哲学思考

通过对大规模跨文化研究的启发，我们对大型语言模型进行了道德困境的决策制定，发现其中在不同语言环境下，模型与人类偏好吻合程度存在差异，并对模型的道德选择进行了解释和发展水平的评估。

Jul, 2024

MoralBench: LLMs 的道德评估

该论文介绍了一个新颖的基准，旨在衡量和比较大型语言模型的道德推理能力，通过开发针对大型语言模型的道德维度的综合数据集和指标，结合伦理学者的定性洞察力，评估模型性能，并揭示了不同模型的道德推理能力存在显著差异，强调在大型语言模型的开发和评估中考虑道德推理的重要性，并需要进行后续研究来解决暴露在研究中的偏见和局限性。

Jun, 2024

重新思考机器伦理 — 透过道德理论的视角，LLM 能进行道德推理吗？

提出了一个灵活的框架，利用跨学科研究中建立的道德理论，引导大型语言模型进行道德推理，证明了该框架在从道德理论中衍生的数据集上的有效性，展示了不同道德理论与现有道德数据集之间的一致性，并展示了开发可解释的道德判断系统中现有资源（模型和数据集）的潜力和缺陷。

Aug, 2023

大型语言模型的逻辑推理能力系统评估

最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色，但它们真正能够对自然语言进行 “推理” 吗？本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力，并引入了 LogicBench，一个关注单个推理规则使用的自然语言问答数据集，通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明，现有的 LLMS 在 LogicBench 上表现不佳，尤其在涉及复杂推理和否定的情况下遇到困难，并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。

Apr, 2024

通过定义问题测试探索大型语言模型的认知道德发展

该研究提出了一个评估框架，以心理学和人工智能为基础，帮助划定模型的伦理推理能力，评估道德一致性和科尔伯格的道德发展阶段。

Sep, 2023

多语言使用对语言模型的道德偏见产生影响

本文探讨了预训练的多语言语言模型是否会从英语中捕捉道德规范，并将其强加在其他语言中，以及它们是否在某些语言中表现出随机且潜在有害的信念。研究还在多语言模型上应用了 MoralDirection 框架，分析了在过滤的平行字幕语料库上的模型行为，并将模型应用于道德基础调查问卷，比较不同国家的人类反应。实验表明，预训练的多语言语言模型确实会编码不同的道德偏见，但这些偏见不一定对应于人类观点的文化差异或共性。

Nov, 2022

基于大型语言模型的道德机器实验

当 LML（大型语言模型）在各个领域中深入应用时，了解它们如何做出道德判断变得至关重要，特别是在自动驾驶领域。本研究利用 Moral Machine 框架，调查了几个重要 LML（包括 GPT-3.5，GPT-4，PaLM 2 和 Llama 2）的道德决策倾向，并将它们与人类偏好进行比较。虽然 LML 和人类的偏好在许多方面保持一致，如优先考虑人类而非宠物，倾向于拯救更多生命，但尤其是 PaLM 2 和 Llama 2 表现出明显的差异。此外，尽管 LML 和人类的偏好在质的方面相似，但在量的方面存在显著差异，这表明相较于人类的温和偏向，LML 可能更倾向于更坚决的决策。这些发现揭示了 LML 的道德框架，以及它们对自动驾驶的潜在影响。

Sep, 2023

非英语问题下不要信任 GPT

本文提供了一种系统方法来衡量 LLMs 在多语言环境下的表现差异，探讨了 LLMs 的跨语言概括现象，结果表明 GPT 在多语言环境下表现出高度翻译一致的行为。

May, 2023

多语言 LLMs 是否具有多元文化的推理能力？对多元文化谚语和格言的研究

研究了多种最新的多语种大语言模型在对话情境中理解谚语和格言的能力，发现模型在理解谚语、推理谚语和其他语言中的谚语时存在一定的困难，同时也存在文化差异。构建并发布了一个评估数据集，适用于六种不同语言的谚语理解与对话情境。

Sep, 2023