ACLFeb, 2024

语言是否影响法学硕士生的道德判断和推理能力?— 基于多语言道德问题定义测试的研究

TL;DR本研究通过定义问题测试,探究了大型语言模型在不同语言中展示的道德判断和道德推理能力。我们扩展了之前仅限于英语的研究范围,针对中文、印地语、俄语、西班牙语和斯瓦希里语这五种新语言,对 ChatGPT、GPT-4 和 Llama2Chat-70B 这三种大型语言模型进行了研究,这些模型具有强大的多语言文本处理和生成能力。我们的研究结果表明,对于印地语和斯瓦希里语,这些模型在道德推理能力方面(以后常规分数为指标)明显不如西班牙语、俄语、中文和英语,而对于后四种语言的表现则没有明显的趋势。同时,通过语言的不同,道德判断也存在相当大的变化。