多语言语言模型的哲学思考
该论文旨在检测和量化高资源语言对低资源语言影响的问题,并寻求方法来提高跨语言模型转移的可靠性。作者使用跨语言模型XLM-R并发现,跨语言语言模型的确能够捕捉道德规范,但还不清楚这些规范在不同语言之间的差异程度。
Mar, 2022
本文探讨了预训练的多语言语言模型是否会从英语中捕捉道德规范,并将其强加在其他语言中,以及它们是否在某些语言中表现出随机且潜在有害的信念。研究还在多语言模型上应用了MoralDirection框架,分析了在过滤的平行字幕语料库上的模型行为,并将模型应用于道德基础调查问卷,比较不同国家的人类反应。实验表明,预训练的多语言语言模型确实会编码不同的道德偏见,但这些偏见不一定对应于人类观点的文化差异或共性。
Nov, 2022
通过对PEW全球调查和世界价值观调查的分析,我们发现预训练的英文语言模型虽然可以捕捉到横跨55个国家和地区的细粒度(例如“同性恋”和“离婚”)道德变异,但不能够显著地预测各个国家的道德规范,然而通过精调可以在牺牲准确度的情况下改善跨国推断。最后我们探讨了将文化知识纳入自动化道德规范推断的相关挑战与意义。
Jun, 2023
本论文通过大规模语言模型的调查研究案例来介绍了一种用于获取编码在语言模型中的信念的统计方法,并应用此方法研究了不同语言模型中编码的道德信念,特别是在选择不明显的模棱两可情况下。这项研究设计了一项大规模调查研究,包含了680个道德情景(如“我应该说一个善意的谎言吗?”)和687个明确的道德情景(如“我应该在路上停车让行人通过吗?”),并对28个开放和闭源语言模型进行了调查。结果发现,在明确的情景中,大多数模型选择与常识一致的行动,而在模棱两可的情况下,大多数模型表达了不确定性,并且部分模型对问题的方式非常敏感,同时一些模型在模糊情景中反映出明确的偏好,尤其是闭源模型之间的一致性较高。
Jul, 2023
本研究通过定义问题测试,探究了大型语言模型在不同语言中展示的道德判断和道德推理能力。我们扩展了之前仅限于英语的研究范围,针对中文、印地语、俄语、西班牙语和斯瓦希里语这五种新语言,对ChatGPT、GPT-4和Llama2Chat-70B这三种大型语言模型进行了研究,这些模型具有强大的多语言文本处理和生成能力。我们的研究结果表明,对于印地语和斯瓦希里语,这些模型在道德推理能力方面(以后常规分数为指标)明显不如西班牙语、俄语、中文和英语,而对于后四种语言的表现则没有明显的趋势。同时,通过语言的不同,道德判断也存在相当大的变化。
Feb, 2024
通过研究GPT-4、ChatGPT和Llama2-70B-Chat在不同语言中进行道德推理的方法,本研究探讨了道德判断是否取决于提示的语言,并发现在其他语言中,ChatGPT和Llama2-70B-Chat存在显著的道德价值偏见,而GPT-4是最具连贯和无偏见的道德推理者。
Apr, 2024
该研究对最先进的大型语言模型进行了综合比较分析,评估了它们的道德特性,发现专有模型主要以功利主义为基础,而开源模型更符合价值伦理学;另外,通过道德基础问卷,除了Llama 2外,所有被调查模型都显示出明显的自由主义偏见;最后,为了对其中一个研究模型进行因果干预,提出了一种新颖的相似性激活引导技术。通过该方法,可以可靠地引导模型的道德观达到不同的伦理学派别。所有这些结果表明,已经部署的大型语言模型存在一个常常被忽视的道德维度。
May, 2024
该论文介绍了一个新颖的基准,旨在衡量和比较大型语言模型的道德推理能力,通过开发针对大型语言模型的道德维度的综合数据集和指标,结合伦理学者的定性洞察力,评估模型性能,并揭示了不同模型的道德推理能力存在显著差异,强调在大型语言模型的开发和评估中考虑道德推理的重要性,并需要进行后续研究来解决暴露在研究中的偏见和局限性。
Jun, 2024
用英文資源對日本語言模型進行對齊,並評估結果微調模型的通俗道德是否與日本文化保持一致,結果顯示,通俗道德的某些方面是可遷移的,但其他方面則不一定。
Jun, 2024
本文针对中文大型语言模型在道德相关背景下的表现,构建了一个名为CMoralEval的大规模道德评估基准,以填补现有研究中的空白。研究提出了一种结合传统文化与现代社会规范的道德分类法,并通过多元真实的数据源创建了包含近三万条道德实例的数据集。实验表明,CMoralEval是中文大型语言模型的一个具有挑战性的基准,具有重要的研究价值和应用潜力。
Aug, 2024