测量和建模LLMs中的“文化”: 一项调查

Mar, 2024

测量和建模LLMs中的“文化”: 一项调查

Towards Measuring and Modeling "Culture" in LLMs: A Survey

Muhammad Farid Adilazuarda, Sagnik Mukherjee, Pradhyumna Lavania, Siddhant Singh, Ashutosh Dwivedi...

TL;DR对研究大型语言模型中文化表示和包容性的39篇最新论文进行概述，发现这些研究中没有明确定义“文化”，而是通过一些特殊设计的数据集来探索模型，这些数据集代表了文化的某些方面；我们称这些方面为文化的代理，按人口统计学、语义和语言文化交互代理三个维度将其组织起来，并对使用的探测方法进行分类。分析表明，只有文化的某些方面，如价值观和目标，得到了研究，其他一些有趣且重要的方面，尤其是语义领域的多样性和主题向度，尚未被探索。另外，目前的方法缺乏鲁棒性和情境性。基于这些观察，提供了关于进一步促进LLM和基于LLM的应用中文化包容的全面可行的研究议程的几点建议。

Abstract

We present a survey of 39 recent papers that aim to study cultural representation and inclusion in large language models. We observe that

发现论文，激发创造

大型语言模型中的文化整合：基于霍夫斯泰德文化维度的分析

使用Hofstede的文化维度框架，通过潜变量分析提供解释性跨文化比较，文中提出了Cultural Alignment Test（CAT）以解决大型语言模型（LLMs）的文化不匹配问题，并使用不同的提示样式和超参数设置评估了ChatGPT和Bard等LLMs嵌入在美国、沙特阿拉伯、中国和斯洛伐克等不同文化之中的文化价值。结果不仅量化了LLMs与特定国家的文化一致性，还揭示了LLMs在解释性文化维度方面的差异。其中GPT-4在理解美国文化价值方面得分最高。

Aug, 2023

CDEval：评估大型语言模型文化维度的基准

利用GPT-4自动生成并通过人工验证的方式，我们构建了一个评估LLMs文化维度的新基准，CDEval。通过研究主流LLMs的文化方面，我们得出了一些有趣的结论，强调了在LLM开发中整合文化考量的重要性，特别是在多元文化环境中的应用。通过CDEval，我们旨在为LLM的未来发展和评估提供一个更全面的框架，为文化研究提供宝贵的资源，为构建更具文化意识和敏感性的模型铺平道路。

Nov, 2023

CultureLLM: 将文化差异融入大型语言模型

提出了一种经济高效的解决方案 CultureLLM，利用 World Value Survey (WVS) 作为种子数据，通过提议的语义数据增强方法生成语义上等价的训练数据，然后使用这些数据对文化特定的 LLMS 进行微调，以及一个统一模型 (CultureLLM-One) 来覆盖 9 种文化。实验结果表明 CultureLLM 在各种文化相关数据集上的性能明显优于其他对比模型，例如 GPT-3.5（8.1%）和 Gemini Pro（9.5%），且与 GPT-4 相当甚至更好。人类研究结果显示生成的样本在语义上与原样本相等，为 LLMs 的增强提供了有效的解决方案。

Feb, 2024

研究大型语言模型的文化一致性

通过调查人类社会学的实际问卷与模型响应的对比，我们的研究发现，大型语言模型 (LLMs) 在两个维度上表现出更高的文化一致性，即当以特定文化的主要语言作为提示时，以及当使用该文化所采用的多语言精炼混合体系进行预训练时，对于模拟调查的不同人物与敏感社会议题，模型的文化一致性更加重要。最后，我们引入了人类学提示的创新方法，利用人类学推理增强文化一致性。我们的研究强调了更平衡的多语言预训练数据集对于更好地代表人类经验多样性和不同文化的复数性，对于跨语言传递的影响的必要性。

Feb, 2024

CULTURE-GEN: 透过自然语言提示揭示语言模型中的全球文化认知

通过对110个国家和地区的8个与文化有关的主题的文化条件生成，以及从这些生成中提取与每个文化相关的符号，我们发现文化条件生成由区分边缘文化与默认文化的语言“标记”组成，而且发现LLM在文化符号的多样性方面存在不平衡，并且来自不同地理区域的文化在LLM的文化无关生成中存在不同的存在。我们的发现促进了进一步研究LLM中全球文化知识和公平感知的研究。

Apr, 2024

NORMAD: 一种用于度量大型语言模型文化适应性的基准

我们的研究关注大型语言模型（LLMs）适应不同社会文化规范的能力，通过介绍NormAd数据集评估LLMs在不同社会文化情境中适应性的表现。研究发现LLMs在文化推理上存在困难，尤其对于来自南方全球的文化相对于以英语为中心的文化更难适应。LLMs在评估跨文化礼物给予的故事时表现较差，对于符合文化规范的故事比违背规范的故事更容易评估社会可接受性。我们的基准测试衡量了LLMs的文化适应性，并强调了使这些技术对全球受众更加公平和有用的潜力。

Apr, 2024

了解大型语言模型在文化常识方面的能力和局限性

通过对多个最先进的大型语言模型的文化常识任务的能力和限制进行全面检验，我们发现大型语言模型在文化特定的常识知识上的表现存在显著差异，其通用常识能力受到文化环境的影响，并且提出查询大型语言模型所使用的语言会影响其在与文化相关的任务上的表现，我们的研究指出了大型语言模型在文化理解方面的固有偏见，并提供了帮助开发具备文化意识的语言模型的洞见。

May, 2024

大型语言模型中的文化忠诚度：在线语言资源对模型价值表现的影响评估

本研究解决了大型语言模型（LLMs）在不同语言资源可用性下，反映国家社会价值观的能力差异问题。通过分析，我们发现数字资源的可用性对模型性能的影响显著，尤其是在低资源语言中性能下降明显，可能加剧数字鸿沟。研究提出了通过建立多语言LLMs和丰富多样的语言数据集进行微调的策略，以改善弱资源语言的表现。

Oct, 2024

驾驭文化万花筒：大型语言模型敏感性的搭便车指南

本研究解决了大型语言模型（LLMs）在全球应用中面临的文化敏感性挑战，特别是小参数模型缺乏捕捉全球文化细微差别的训练数据。通过创建文化伤害测试数据集和文化对齐偏好数据集，我们提供了评估和增强LLMs文化敏感性的方法，研究表明整合文化反馈显著改善模型输出，从而促进更具包容性和尊重的人工智能系统的发展。

Oct, 2024

语言模型中的文化意识调查：文本及其他

本研究针对大规模语言模型在应用中对用户文化敏感性的需求进行了调查，指出了当前文献中的不足之处。通过提出跨文化数据集的创建方法和文化纳入策略，本论文总结了在文本和多模态语言模型中增强文化意识的最新进展。研究发现，推动文化对齐不仅能提高语言模型的包容性，还有助于社会科学研究的发展。

Oct, 2024