通过模拟合成角色评估大型语言模型的文化适应性
介绍了一种新的测试方法——图灵实验(TE),用于评估语言模型(如GPT-3)模拟人类行为的能力,设计实现了多项经济学、语言学和社会心理学实验的TE,比较了不同语言模型再现经典实验的表现,揭示了一些语言模型的“超级精度扭曲”问题。
Aug, 2022
本文探讨利用语言模型作为特定人群的有效代理来进行社会科学研究的可能性,并提出算法保真度的概念,通过对 GPT-3 语言模型进行多层面和微粒度的统计和分析,揭示了其中的“算法偏差”不是均质的,而是有人口学相关性的。作者通过调节模型条件,成为可以精确模拟大量人讨论或表达的回应情况的一种工具,这为理解人类思想、态度和文化背景提供了一种全新且强大的方法。
Sep, 2022
本文通过分析 ChatGPT 对量化人类文化差异的问题的反应,研究了 ChatGPT 的文化背景,并表明当提示语是美国背景时,ChatGPT 的响应与美国文化强烈关联,但对于其他文化背景适应性降低;此外,使用不同提示来探测模型,显示英文提示会减少模型响应的差异,使文化差异变平,并偏向美国文化,该研究提供了有关 ChatGPT 文化影响的有价值见解,并强调了语言技术中更大的多样性和文化意识的必要性。
Mar, 2023
使用Hofstede的文化维度框架,通过潜变量分析提供解释性跨文化比较,文中提出了Cultural Alignment Test(CAT)以解决大型语言模型(LLMs)的文化不匹配问题,并使用不同的提示样式和超参数设置评估了ChatGPT和Bard等LLMs嵌入在美国、沙特阿拉伯、中国和斯洛伐克等不同文化之中的文化价值。结果不仅量化了LLMs与特定国家的文化一致性,还揭示了LLMs在解释性文化维度方面的差异。其中GPT-4在理解美国文化价值方面得分最高。
Aug, 2023
用GPT-4模型进行大规模实验(N=8000),发现其能否复制使用十项人格测试测量的Big Five的跨文化差异,结果显示GPT-4能够复制出每个因素的跨文化差异,但平均评分有向上偏倚,展现出比人类样本更小的变异性和较低的结构效度,总体上,我们提供初步证据证明语言模型有助于跨文化心理研究。
Oct, 2023
利用GPT-4自动生成并通过人工验证的方式,我们构建了一个评估LLMs文化维度的新基准,CDEval。通过研究主流LLMs的文化方面,我们得出了一些有趣的结论,强调了在LLM开发中整合文化考量的重要性,特别是在多元文化环境中的应用。通过CDEval,我们旨在为LLM的未来发展和评估提供一个更全面的框架,为文化研究提供宝贵的资源,为构建更具文化意识和敏感性的模型铺平道路。
Nov, 2023
我们的研究关注大型语言模型(LLMs)适应不同社会文化规范的能力,通过介绍NormAd数据集评估LLMs在不同社会文化情境中适应性的表现。研究发现LLMs在文化推理上存在困难,尤其对于来自南方全球的文化相对于以英语为中心的文化更难适应。LLMs在评估跨文化礼物给予的故事时表现较差,对于符合文化规范的故事比违背规范的故事更容易评估社会可接受性。我们的基准测试衡量了LLMs的文化适应性,并强调了使这些技术对全球受众更加公平和有用的潜力。
Apr, 2024
ChatGPT(GPT-3.5)是一个大型语言模型,该研究调查了ChatGPT中的国籍偏见,通过分析自动生成的论述,发现其生成的文本表现出真实世界中的国籍偏见,强调了对大型语言模型中潜在偏见的进一步审查的必要性。
May, 2024
该研究使用心理测量学的方法,对OpenAI的GPT-3.5和GPT-4模型进行了人格特质测试。结果发现,使用普通人物描述时,GPT-4的回答表现出与人类相似的心理特点,而使用具体人口统计信息的情况下,两个模型的回答则表现较差,此研究对于大语言模型在模拟个体级人类行为方面提出了怀疑。
May, 2024
本文研究了多样化用户和语言技术之间的高效交互所需的文化相关性和敏感性,以及在两个文本生成任务中文化能力的外部评估,最终讨论了在用户面向任务中设计全面评估文化能力时的重要考虑因素。
Jun, 2024