大型语言模型中文化主导问题：并非所有国家都庆祝感恩节

Oct, 2023

大型语言模型中文化主导问题：并非所有国家都庆祝感恩节

Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in Large Language Models

Wenxuan Wang, Wenxiang Jiao, Jingyuan Huang, Ruyi Dai, Jen-tse Huang...

TL;DR我们发现大型语言模型（LLMs）中存在文化主导问题，由于在模型训练中主要使用英文数据（例如 ChatGPT），当用户使用非英语语言进行提问时，LLMs 常常会提供与预期文化不相关的不适当的英语文化相关答案。为了系统评估文化主导问题，我们构建了一个基准，其中包括具体的（例如节日和歌曲）和抽象的（例如价值观和意见）文化对象。实证结果表明，代表性的 GPT 模型存在文化主导问题，其中 GPT-4 受到的影响最大，而 text-davinci-003 受到的影响最小。我们的研究强调了对文化主导问题进行批判性审视和在开发和部署中考虑道德问题的必要性。我们展示了在 LLMs 中如何通过两种直接的方法（即使用更多样化的数据进行预训练和文化感知的提示）来显著减轻文化主导问题。

Abstract

In this paper, we identify a cultural dominance issue within large language models (LLMs) due to the predominant use of english data in model training (e.g. ChatGPT). LLMs often provide inappropriate English-cult

cultural dominance language models english data culture awareness diverse data

发现论文，激发创造

CultureLLM: 将文化差异融入大型语言模型

提出了一种经济高效的解决方案 CultureLLM，利用 World Value Survey (WVS) 作为种子数据，通过提议的语义数据增强方法生成语义上等价的训练数据，然后使用这些数据对文化特定的 LLMS 进行微调，以及一个统一模型 (CultureLLM-One) 来覆盖 9 种文化。实验结果表明 CultureLLM 在各种文化相关数据集上的性能明显优于其他对比模型，例如 GPT-3.5（8.1%）和 Gemini Pro（9.5%），且与 GPT-4 相当甚至更好。人类研究结果显示生成的样本在语义上与原样本相等，为 LLMs 的增强提供了有效的解决方案。

Feb, 2024

研究大型语言模型的文化一致性

通过调查人类社会学的实际问卷与模型响应的对比，我们的研究发现，大型语言模型 (LLMs) 在两个维度上表现出更高的文化一致性，即当以特定文化的主要语言作为提示时，以及当使用该文化所采用的多语言精炼混合体系进行预训练时，对于模拟调查的不同人物与敏感社会议题，模型的文化一致性更加重要。最后，我们引入了人类学提示的创新方法，利用人类学推理增强文化一致性。我们的研究强调了更平衡的多语言预训练数据集对于更好地代表人类经验多样性和不同文化的复数性，对于跨语言传递的影响的必要性。

Feb, 2024

大型语言模型对文化及道德规范的了解

通过对 PEW 全球调查和世界价值观调查的分析，我们发现预训练的英文语言模型虽然可以捕捉到横跨 55 个国家和地区的细粒度（例如 “同性恋” 和 “离婚”）道德变异，但不能够显著地预测各个国家的道德规范，然而通过精调可以在牺牲准确度的情况下改善跨国推断。最后我们探讨了将文化知识纳入自动化道德规范推断的相关挑战与意义。

Jun, 2023

非英语问题下不要信任 GPT

本文提供了一种系统方法来衡量 LLMs 在多语言环境下的表现差异，探讨了 LLMs 的跨语言概括现象，结果表明 GPT 在多语言环境下表现出高度翻译一致的行为。

May, 2023

母语设计偏见：研究英语作为母语对语言模型性能的影响

该研究通过分析数据集，探讨了大型语言模型在回答非英语母语使用者的问题时是否会产生性能偏差，结果发现与母语使用者相比，非英语母语使用者在与语言模型的互动中会获得更低质量甚至事实错误的回答。

Jun, 2024

CulturePark: 大型语言模型中跨文化理解的提升

通过 CulturePark，我们生成了 41,000 个文化样本，用于优化八个特定文化的 LLM。我们在内容审查、文化协调和文化教育三个下游任务中评估了这些模型，结果表明在内容审查方面，基于 GPT-3.5 的模型要么与 GPT-4 相匹配，要么胜过它。在文化协调方面，我们的模型优于 GPT-4 的 Hofstede 的 VSM 13 框架。此外，针对人类参与者的文化教育，我们的模型在学习效果和用户体验方面与 GPT-4 相比展现了卓越的结果。CulturePark 是解决文化偏见和推动人工智能民主化的重要进展，突显了文化包容性数据在模型训练中的关键作用。

May, 2024

翻译是唯一需要吗？关于使用大型语言模型解决多语言任务的研究

我们提倡更多的努力来开发强大的多语种语言模型，而不仅仅是以英语为中心的语言模型。

Mar, 2024

多语言语言模型并非跨文化：以情感为例的案例分析

本研究调查了 2023 年广泛使用的跨语言大型语言模型是否反映了不同文化和语言情感表达方式的差异，结果显示模型具有英语中心主义倾向，未能成功学习文化上适宜的情感细微差别，研究提出了可能的研究方向。

Jul, 2023

大型语言模型可以复制跨文化差异的个性

用 GPT-4 模型进行大规模实验（N=8000），发现其能否复制使用十项人格测试测量的 Big Five 的跨文化差异，结果显示 GPT-4 能够复制出每个因素的跨文化差异，但平均评分有向上偏倚，展现出比人类样本更小的变异性和较低的结构效度，总体上，我们提供初步证据证明语言模型有助于跨文化心理研究。

Oct, 2023

从字节到偏见：研究大型语言模型的文化自我认知

这项研究通过从 GLOBE 项目获取的价值问题激发 ChatGPT（OpenAI）和 Bard（Google）来探讨了大型语言模型的文化自我认知，结果显示它们与英语国家和经济竞争力强的国家的价值观最为相似。认识到大型语言模型的文化偏见并理解它们的工作方式对社会中的所有人都非常重要，因为我们不希望人工智能的黑盒子延续偏见，使人类在无意中创造和训练更加带有偏见的算法。

Dec, 2023