CultureLLM: 将文化差异融入大型语言模型

Feb, 2024

CultureLLM: 将文化差异融入大型语言模型

CultureLLM: Incorporating Cultural Differences into Large Language Models

Cheng Li, Mengzhou Chen, Jindong Wang, Sunayana Sitaram, Xing Xie

TL;DR提出了一种经济高效的解决方案 CultureLLM，利用 World Value Survey (WVS) 作为种子数据，通过提议的语义数据增强方法生成语义上等价的训练数据，然后使用这些数据对文化特定的 LLMS 进行微调，以及一个统一模型 (CultureLLM-One) 来覆盖 9 种文化。实验结果表明 CultureLLM 在各种文化相关数据集上的性能明显优于其他对比模型，例如 GPT-3.5（8.1%）和 Gemini Pro（9.5%），且与 GPT-4 相当甚至更好。人类研究结果显示生成的样本在语义上与原样本相等，为 LLMs 的增强提供了有效的解决方案。

Abstract

large language models (LLMs) are reported to be partial to certain cultures owing to the training data dominance from the English corpora. Since multilingual cultural data are often expensive to collect, existing efforts handle this by prompt engineering or culture-specific pre-trainin

发现论文，激发创造

CulturaX：一个干净、庞大且多语言的数据集，适用于拥有167种语言的大型语言模型

CulturaX为大型语言模型提供一份多语种数据集，经过严格清洗和去重处理，解决了LLM开发中的透明度、幻觉和偏见问题，促进了多语种LLM的研究和发展。

Sep, 2023

CDEval：评估大型语言模型文化维度的基准

利用GPT-4自动生成并通过人工验证的方式，我们构建了一个评估LLMs文化维度的新基准，CDEval。通过研究主流LLMs的文化方面，我们得出了一些有趣的结论，强调了在LLM开发中整合文化考量的重要性，特别是在多元文化环境中的应用。通过CDEval，我们旨在为LLM的未来发展和评估提供一个更全面的框架，为文化研究提供宝贵的资源，为构建更具文化意识和敏感性的模型铺平道路。

Nov, 2023

测量和建模LLMs中的“文化”: 一项调查

对研究大型语言模型中文化表示和包容性的39篇最新论文进行概述，发现这些研究中没有明确定义“文化”，而是通过一些特殊设计的数据集来探索模型，这些数据集代表了文化的某些方面；我们称这些方面为文化的代理，按人口统计学、语义和语言文化交互代理三个维度将其组织起来，并对使用的探测方法进行分类。分析表明，只有文化的某些方面，如价值观和目标，得到了研究，其他一些有趣且重要的方面，尤其是语义领域的多样性和主题向度，尚未被探索。另外，目前的方法缺乏鲁棒性和情境性。基于这些观察，提供了关于进一步促进LLM和基于LLM的应用中文化包容的全面可行的研究议程的几点建议。

Mar, 2024

CULTURE-GEN: 透过自然语言提示揭示语言模型中的全球文化认知

通过对110个国家和地区的8个与文化有关的主题的文化条件生成，以及从这些生成中提取与每个文化相关的符号，我们发现文化条件生成由区分边缘文化与默认文化的语言“标记”组成，而且发现LLM在文化符号的多样性方面存在不平衡，并且来自不同地理区域的文化在LLM的文化无关生成中存在不同的存在。我们的发现促进了进一步研究LLM中全球文化知识和公平感知的研究。

Apr, 2024

CulturePark: 大型语言模型中跨文化理解的提升

通过CulturePark，我们生成了41,000个文化样本，用于优化八个特定文化的LLM。我们在内容审查、文化协调和文化教育三个下游任务中评估了这些模型，结果表明在内容审查方面，基于GPT-3.5的模型要么与GPT-4相匹配，要么胜过它。在文化协调方面，我们的模型优于GPT-4的Hofstede的VSM 13框架。此外，针对人类参与者的文化教育，我们的模型在学习效果和用户体验方面与GPT-4相比展现了卓越的结果。CulturePark是解决文化偏见和推动人工智能民主化的重要进展，突显了文化包容性数据在模型训练中的关键作用。

May, 2024

跨文化翻译: 针对语内文化适应的法学硕士

该研究定义了文化适应的任务，并创建了一个评估框架来评估不同模型在这个任务上的性能。研究评估了现代LLMs在文化适应方面的表现，分析了它们在不同文化之间连接相关概念时的跨文化知识，并分析了自动适应中可能存在的文化偏见和刻板印象。希望该任务能够更深入地了解LLMs在跨文化情境中的文化理解和创造力。

Jun, 2024

自我对齐：通过上下文学习改善大型语言模型中的文化价值观对齐

本研究针对大型语言模型（LLMs）与其编码的文化价值观之间的对齐问题，提出了一种利用推理时现有文化价值知识的方法。通过结合上下文学习和人类调查数据，我们展示了可以有效改善五种模型（包括英语为中心的和多语言的）对文化价值的对齐，且该方法在英语以外的测试语言和多元文化国家中同样具有潜在应用价值。

Aug, 2024

文化基准：一个健壮、多样且具有挑战性的基准，用于衡量大型语言模型的（缺乏）文化知识

本研究旨在解决现有大型语言模型在文化知识评估方面的不足，提出了一种新的评估工具CulturalBench，包含1,227个涵盖45个全球区域的问题。研究发现，尽管最先进的模型在某些区域表现出色，但普遍在南美和中东的问题上表现不佳，尤其在回答多答案问题时趋向于单一答案。

Oct, 2024

大型语言模型中的文化忠诚度：在线语言资源对模型价值表现的影响评估

本研究解决了大型语言模型（LLMs）在不同语言资源可用性下，反映国家社会价值观的能力差异问题。通过分析，我们发现数字资源的可用性对模型性能的影响显著，尤其是在低资源语言中性能下降明显，可能加剧数字鸿沟。研究提出了通过建立多语言LLMs和丰富多样的语言数据集进行微调的策略，以改善弱资源语言的表现。

Oct, 2024

大语言模型的自我多元文化对齐

本研究解决了如何在大语言模型中实现多元文化对齐的开放性问题。提出的CultureSPA框架通过生成多文化主题问题，并在文化知情与非知情设置下评估模型输出，从而收集文化实例并进行微调，显著提升了模型在多元文化中的表现与适应性。研究结果表明，该框架在不影响模型通用能力的前提下，能够有效支持多样化文化的需求。

Oct, 2024