大型语言模型对文化及道德规范的了解

Jun, 2023

大型语言模型对文化及道德规范的了解

Knowledge of cultural moral norms in large language models

Aida Ramezani, Yang Xu

TL;DR通过对 PEW 全球调查和世界价值观调查的分析，我们发现预训练的英文语言模型虽然可以捕捉到横跨 55 个国家和地区的细粒度（例如 “同性恋” 和 “离婚”）道德变异，但不能够显著地预测各个国家的道德规范，然而通过精调可以在牺牲准确度的情况下改善跨国推断。最后我们探讨了将文化知识纳入自动化道德规范推断的相关挑战与意义。

Abstract

moral norms vary across cultures. A recent line of work suggests that English large language models contain human-like moral biases, but these studies typically do not examine moral variation in a diverse cultura

culture language models moral norms fine-tuning global surveys

发现论文，激发创造

多语言语言模型是否捕捉到不同的道德规范？

该论文旨在检测和量化高资源语言对低资源语言影响的问题，并寻求方法来提高跨语言模型转移的可靠性。作者使用跨语言模型 XLM-R 并发现，跨语言语言模型的确能够捕捉道德规范，但还不清楚这些规范在不同语言之间的差异程度。

Mar, 2022

多语言使用对语言模型的道德偏见产生影响

本文探讨了预训练的多语言语言模型是否会从英语中捕捉道德规范，并将其强加在其他语言中，以及它们是否在某些语言中表现出随机且潜在有害的信念。研究还在多语言模型上应用了 MoralDirection 框架，分析了在过滤的平行字幕语料库上的模型行为，并将模型应用于道德基础调查问卷，比较不同国家的人类反应。实验表明，预训练的多语言语言模型确实会编码不同的道德偏见，但这些偏见不一定对应于人类观点的文化差异或共性。

Nov, 2022

多语言语言模型的哲学思考

通过对大规模跨文化研究的启发，我们对大型语言模型进行了道德困境的决策制定，发现其中在不同语言环境下，模型与人类偏好吻合程度存在差异，并对模型的道德选择进行了解释和发展水平的评估。

Jul, 2024

将人工智能与共享人类价值观相一致

本文介绍了 ETHICS 数据集，旨在通过连接社会世界知识和价值判断来评估语言模型对道德基本概念的了解程度，研究发现当前语言模型有望但能力不完整地预测基本人类道德判断，并提供了实现人工智能与人类价值对齐的一步。

Aug, 2020

大型预训练语言模型包含人类的偏见：什么是对与错

该研究指出近期基于 transformer 的大型语言模型（LMs）例如 BERT, GPT-2/3，虽然在许多 NLP 任务中表现出色，但是这些 LMs 训练于未过滤的语料库会出现偏差行为。同时，该研究证明这些 LMs 也包含类似于人类的伦理和道德规范，这种 “道德方向” 运用 PCA 等技术可以减弱甚至消除不当的行为，以排除生产有害的信息，该研究应用在 RealToxicityPrompts 测试中展示了这个道德方向可以引导模型产生符合伦理要求的文本。

Mar, 2021

MoCa：人类语言模型在因果和道德判断任务上的一致性测量

人类对物理和社会世界的常识性理解建立在直觉理论的基础上，而这些理论支持我们进行因果和道德判断。本文通过收集一系列的故事并对其进行标注，测试了大型语言模型对文本场景进行的因果和道德判断是否与人类参与者的判断相符。结果显示，虽然整体上随着近期大型语言模型的发展，其与人类的判断相符度有所提高，但通过统计分析发现大型语言模型与人类参与者之间对不同因素的重视程度存在明显差异。这些结果显示了如何通过策划和挑战性数据集结合来自认知科学的见解，超越基于总体指标的比较，揭示了大型语言模型的隐含倾向，并展示了这些倾向在多大程度上与人类的直觉相一致。

Oct, 2023

MoralBERT：社会话语中道德价值的检测

通过精心设计的 MoralBERT 模型，结合社交媒体平台的标注道德数据，探索了道德预测及领域适应技术在理解有争议的社会议题上的应用，结果表明在领域内的预测模型明显优于传统模型，但领域外的泛化仍需进一步探索。

Mar, 2024

大型语言模型的社会规范测量

我们提出了一个新的挑战，以检验大型语言模型是否理解社会规范。我们的数据集需要对社会规范有基本的理解才能解决，它包含了 402 种社会规范技能和 12,383 个问题，涵盖了从意见和争论到文化和法律的广泛社会规范。我们根据 K-12 课程设计了数据集，使得能够直接将大型语言模型的社会理解与人类，特别是小学生进行比较。尽管先前的研究在我们提出的基准测试上几乎随机准确，但最近的大型语言模型如 GPT3.5-Turbo 和 LLaMA2-Chat 能够显著提高性能，仅稍微低于人类的表现。然后，我们提出了一种基于大型语言模型的多智能体框架，以提高模型理解社会规范的能力。这种方法进一步改进了大型语言模型与人类的水平相当。考虑到大型语言模型在现实应用中的日益普及，我们的发现尤为重要，为未来的改进提供了独特的方向。

Apr, 2024

研究大型语言模型的文化一致性

通过调查人类社会学的实际问卷与模型响应的对比，我们的研究发现，大型语言模型 (LLMs) 在两个维度上表现出更高的文化一致性，即当以特定文化的主要语言作为提示时，以及当使用该文化所采用的多语言精炼混合体系进行预训练时，对于模拟调查的不同人物与敏感社会议题，模型的文化一致性更加重要。最后，我们引入了人类学提示的创新方法，利用人类学推理增强文化一致性。我们的研究强调了更平衡的多语言预训练数据集对于更好地代表人类经验多样性和不同文化的复数性，对于跨语言传递的影响的必要性。

Feb, 2024

跨文化对齐是否改变语言模型的常识道德？

用英文資源對日本語言模型進行對齊，並評估結果微調模型的通俗道德是否與日本文化保持一致，結果顯示，通俗道德的某些方面是可遷移的，但其他方面則不一定。

Jun, 2024