多语言使用对语言模型的道德偏见产生影响

Nov, 2022

多语言使用对语言模型的道德偏见产生影响

Speaking Multiple Languages Affects the Moral Bias of Language Models

Katharina Hämmerl, Björn Deiseroth, Patrick Schramowski, Jindřich Libovický, Constantin A. Rothkopf...

TL;DR本文探讨了预训练的多语言语言模型是否会从英语中捕捉道德规范，并将其强加在其他语言中，以及它们是否在某些语言中表现出随机且潜在有害的信念。研究还在多语言模型上应用了 MoralDirection 框架，分析了在过滤的平行字幕语料库上的模型行为，并将模型应用于道德基础调查问卷，比较不同国家的人类反应。实验表明，预训练的多语言语言模型确实会编码不同的道德偏见，但这些偏见不一定对应于人类观点的文化差异或共性。

Abstract

pre-trained multilingual language models (PMLMs) are commonly used when dealing with data from multiple languages and cross-lingual transfer. However, PMLMs are trained on varying amounts of data for each languag

pre-trained multilingual language models moral norms cross-lingual transfer moraldirection framework moral biases

发现论文，激发创造

多语言语言模型是否捕捉到不同的道德规范？

该论文旨在检测和量化高资源语言对低资源语言影响的问题，并寻求方法来提高跨语言模型转移的可靠性。作者使用跨语言模型 XLM-R 并发现，跨语言语言模型的确能够捕捉道德规范，但还不清楚这些规范在不同语言之间的差异程度。

Mar, 2022

大型语言模型对文化及道德规范的了解

通过对 PEW 全球调查和世界价值观调查的分析，我们发现预训练的英文语言模型虽然可以捕捉到横跨 55 个国家和地区的细粒度（例如 “同性恋” 和 “离婚”）道德变异，但不能够显著地预测各个国家的道德规范，然而通过精调可以在牺牲准确度的情况下改善跨国推断。最后我们探讨了将文化知识纳入自动化道德规范推断的相关挑战与意义。

Jun, 2023

大型预训练语言模型包含人类的偏见：什么是对与错

该研究指出近期基于 transformer 的大型语言模型（LMs）例如 BERT, GPT-2/3，虽然在许多 NLP 任务中表现出色，但是这些 LMs 训练于未过滤的语料库会出现偏差行为。同时，该研究证明这些 LMs 也包含类似于人类的伦理和道德规范，这种 “道德方向” 运用 PCA 等技术可以减弱甚至消除不当的行为，以排除生产有害的信息，该研究应用在 RealToxicityPrompts 测试中展示了这个道德方向可以引导模型产生符合伦理要求的文本。

Mar, 2021

预训练的多语言模型在不同语言间的公平性是否相同？

探讨预训练多语言语言模型的组公平性，通过创建一个新的平行洞察测试实例的多语言数据集（MozArt）及使用人口统计信息来评估三种多语言模型（mBERT，XLM-R 和 mT5），我们发现这三种模型在四种目标语言中表现出不同程度的组不公平性，例如在西班牙语中表现出接近相等的风险，但在德语中表现出高水平的不平等。

Oct, 2022

道德模仿：大型语言模型生成符合政治身份的道德辩护

利用 Moral Foundations 理论探究 GPT-3 在政治身份提示下是否会复制与特定政治群体相关联的道德偏见。结果表明大型语言模型确实会在提示政治身份后生成反映相应道德偏见的文本，这种道德模仿既可能有益社会，也可能破坏社会。

Sep, 2022

多语种预训练语言模型的事实一致性

本文调查了多语言语言模型（如 mBERT 和 XLM-R）在一些语言下对事实知识预测的一致性，并发现尽管在英语下，这些模型的一致性与其单语言模型相似，但在其他 45 种语言下，这些模型的一致性程度却较低。

Mar, 2022

语言是否影响法学硕士生的道德判断和推理能力？— 基于多语言道德问题定义测试的研究

本研究通过定义问题测试，探究了大型语言模型在不同语言中展示的道德判断和道德推理能力。我们扩展了之前仅限于英语的研究范围，针对中文、印地语、俄语、西班牙语和斯瓦希里语这五种新语言，对 ChatGPT、GPT-4 和 Llama2Chat-70B 这三种大型语言模型进行了研究，这些模型具有强大的多语言文本处理和生成能力。我们的研究结果表明，对于印地语和斯瓦希里语，这些模型在道德推理能力方面（以后常规分数为指标）明显不如西班牙语、俄语、中文和英语，而对于后四种语言的表现则没有明显的趋势。同时，通过语言的不同，道德判断也存在相当大的变化。

Feb, 2024

语言模型反映哪些人的情绪和道德情感？

语言模型（LMs）代表某些社会群体的观点较好，可能在内容管理和仇恨言论检测等主观任务上发挥作用。本研究旨在探讨 LMs 如何代表不同观点，现有研究主要关注定位对齐，即模型模拟不同群体（如自由派或保守派）的观点和立场的接近程度，而人类交流还包含情感和道德维度。我们定义了情感对齐问题，度量了 LMs 情感和道德色彩在代表不同群体方面的表现。通过比较 36 个 LMs 生成的回应与 Twitter 消息的情感对比，我们观察到 LMs 与意识形态群体都存在显著的不对齐问题。这种不对齐超过了美国的党派分歧。即使将 LMs 定向于特定的意识形态观点，不对齐问题和模型的自由倾向仍然存在，暗示 LMs 内存在系统偏见。

Feb, 2024

多语言大型语言模型综述：语料库、对齐和偏差调查

该研究分析了多语言大型语言模型（MLLMs）的关键问题，包括语言不平衡、多语言对齐和固有偏差，探讨 MLLMs 的全球语言表示能力、偏见和挑战，并提出了有前景的研究方向。

Apr, 2024

MAFIA: 多适配器融合式全包含语言模型

通过使用结构化知识和大型生成模型，在多个偏见维度上以半自动的方式构建多样化反事实数据扩充（CDA），我们提出了一种模块化地消除预训练语言模型中的多个偏见维度。我们强调现有的去偏见方法未考虑多个社会偏见之间的相互作用，并提出了一种在各种社会偏见之间利用协同效应、能够同时进行多偏见去偏见的模型。通过在多个任务和多种语言上进行广泛评估，证明了我们的方法的有效性。

Feb, 2024