通过模拟合成角色评估大型语言模型的文化适应性

Aug, 2024

通过模拟合成角色评估大型语言模型的文化适应性

Evaluating Cultural Adaptability of a Large Language Model via Simulation of Synthetic Personas

Louis Kwok, Michal Bravansky, Lewis D. Griffin

TL;DR本研究针对大型语言模型（LLM）在多文化环境中的适应问题，提出了一种通过模拟不同国籍的用户角色进行评估的新方法。研究发现，明确指定用户的居住国可以提升模型的文化适应性，而使用母语提示则可能降低模拟准确性，特别是在某些语言中。这表明，国籍信息对模型的适应性具有正面影响，但母语提示却没有提供可靠的提升，甚至可能造成负面效果。

Abstract

The success of Large Language Models (LLMs) in multicultural environments hinges on their ability to understand users' diverse cultural backgrounds. We measure this capability by having an LLM simulate human profiles representing various nationalities within the scope of a questionnair

发现论文，激发创造

使用大型语言模型模拟多人并复制人类受试研究

介绍了一种新的测试方法——图灵实验（TE），用于评估语言模型（如GPT-3）模拟人类行为的能力，设计实现了多项经济学、语言学和社会心理学实验的TE，比较了不同语言模型再现经典实验的表现，揭示了一些语言模型的“超级精度扭曲”问题。

Aug, 2022

一而多：使用语言模型模拟人类样本

本文探讨利用语言模型作为特定人群的有效代理来进行社会科学研究的可能性，并提出算法保真度的概念，通过对 GPT-3 语言模型进行多层面和微粒度的统计和分析，揭示了其中的“算法偏差”不是均质的，而是有人口学相关性的。作者通过调节模型条件，成为可以精确模拟大量人讨论或表达的回应情况的一种工具，这为理解人类思想、态度和文化背景提供了一种全新且强大的方法。

Sep, 2022

评估ChatGPT和人类社会之间的跨文化对齐：一个实证研究

本文通过分析 ChatGPT 对量化人类文化差异的问题的反应，研究了 ChatGPT 的文化背景，并表明当提示语是美国背景时，ChatGPT 的响应与美国文化强烈关联，但对于其他文化背景适应性降低；此外，使用不同提示来探测模型，显示英文提示会减少模型响应的差异，使文化差异变平，并偏向美国文化，该研究提供了有关 ChatGPT 文化影响的有价值见解，并强调了语言技术中更大的多样性和文化意识的必要性。

Mar, 2023

大型语言模型中的文化整合：基于霍夫斯泰德文化维度的分析

使用Hofstede的文化维度框架，通过潜变量分析提供解释性跨文化比较，文中提出了Cultural Alignment Test（CAT）以解决大型语言模型（LLMs）的文化不匹配问题，并使用不同的提示样式和超参数设置评估了ChatGPT和Bard等LLMs嵌入在美国、沙特阿拉伯、中国和斯洛伐克等不同文化之中的文化价值。结果不仅量化了LLMs与特定国家的文化一致性，还揭示了LLMs在解释性文化维度方面的差异。其中GPT-4在理解美国文化价值方面得分最高。

Aug, 2023

大型语言模型可以复制跨文化差异的个性

用GPT-4模型进行大规模实验（N=8000），发现其能否复制使用十项人格测试测量的Big Five的跨文化差异，结果显示GPT-4能够复制出每个因素的跨文化差异，但平均评分有向上偏倚，展现出比人类样本更小的变异性和较低的结构效度，总体上，我们提供初步证据证明语言模型有助于跨文化心理研究。

Oct, 2023

CDEval：评估大型语言模型文化维度的基准

利用GPT-4自动生成并通过人工验证的方式，我们构建了一个评估LLMs文化维度的新基准，CDEval。通过研究主流LLMs的文化方面，我们得出了一些有趣的结论，强调了在LLM开发中整合文化考量的重要性，特别是在多元文化环境中的应用。通过CDEval，我们旨在为LLM的未来发展和评估提供一个更全面的框架，为文化研究提供宝贵的资源，为构建更具文化意识和敏感性的模型铺平道路。

Nov, 2023

NORMAD: 一种用于度量大型语言模型文化适应性的基准

我们的研究关注大型语言模型（LLMs）适应不同社会文化规范的能力，通过介绍NormAd数据集评估LLMs在不同社会文化情境中适应性的表现。研究发现LLMs在文化推理上存在困难，尤其对于来自南方全球的文化相对于以英语为中心的文化更难适应。LLMs在评估跨文化礼物给予的故事时表现较差，对于符合文化规范的故事比违背规范的故事更容易评估社会可接受性。我们的基准测试衡量了LLMs的文化适应性，并强调了使这些技术对全球受众更加公平和有用的潜力。

Apr, 2024

优秀但不足的：大型语言模型中的国籍偏见-ChatGPT的案例研究

ChatGPT（GPT-3.5）是一个大型语言模型，该研究调查了ChatGPT中的国籍偏见，通过分析自动生成的论述，发现其生成的文本表现出真实世界中的国籍偏见，强调了对大型语言模型中潜在偏见的进一步审查的必要性。

May, 2024

LLM模型模拟人类心理行为的有限能力：心理测量分析

该研究使用心理测量学的方法，对OpenAI的GPT-3.5和GPT-4模型进行了人格特质测试。结果发现，使用普通人物描述时，GPT-4的回答表现出与人类相似的心理特点，而使用具体人口统计信息的情况下，两个模型的回答则表现较差，此研究对于大语言模型在模拟个体级人类行为方面提出了怀疑。

May, 2024

大型语言模型中文化能力的外在评估

本文研究了多样化用户和语言技术之间的高效交互所需的文化相关性和敏感性，以及在两个文本生成任务中文化能力的外部评估，最终讨论了在用户面向任务中设计全面评估文化能力时的重要考虑因素。

Jun, 2024