CulturePark: 大型语言模型中跨文化理解的提升

May, 2024

CulturePark: 大型语言模型中跨文化理解的提升

CulturePark: Boosting Cross-cultural Understanding in Large Language Models

Cheng Li, Damien Teney, Linyi Yang, Qingsong Wen, Xing Xie...

TL;DR通过CulturePark，我们生成了41,000个文化样本，用于优化八个特定文化的LLM。我们在内容审查、文化协调和文化教育三个下游任务中评估了这些模型，结果表明在内容审查方面，基于GPT-3.5的模型要么与GPT-4相匹配，要么胜过它。在文化协调方面，我们的模型优于GPT-4的Hofstede的VSM 13框架。此外，针对人类参与者的文化教育，我们的模型在学习效果和用户体验方面与GPT-4相比展现了卓越的结果。CulturePark是解决文化偏见和推动人工智能民主化的重要进展，突显了文化包容性数据在模型训练中的关键作用。

Abstract

cultural bias is pervasive in many large language models (LLMs), largely due to the deficiency of data representative of different cultures. Typically, cultural datasets and benchmarks are constructed either by e

发现论文，激发创造

评估ChatGPT和人类社会之间的跨文化对齐：一个实证研究

本文通过分析 ChatGPT 对量化人类文化差异的问题的反应，研究了 ChatGPT 的文化背景，并表明当提示语是美国背景时，ChatGPT 的响应与美国文化强烈关联，但对于其他文化背景适应性降低；此外，使用不同提示来探测模型，显示英文提示会减少模型响应的差异，使文化差异变平，并偏向美国文化，该研究提供了有关 ChatGPT 文化影响的有价值见解，并强调了语言技术中更大的多样性和文化意识的必要性。

Mar, 2023

大规模多元文化知识获取与语言模型基准测试

通过从维基百科文献到链接页面的导航，建立文化知识的多元多样化采集方法与CultureAtlas数据集，该数据集涵盖了各种亚国家地理区域和族群，用于评估语言模型在文化多元背景下的表现和开发具有文化敏感和意识的语言模型，以促进数字领域中全球文化的更具包容性和平衡的表达。

Feb, 2024

CultureLLM: 将文化差异融入大型语言模型

提出了一种经济高效的解决方案 CultureLLM，利用 World Value Survey (WVS) 作为种子数据，通过提议的语义数据增强方法生成语义上等价的训练数据，然后使用这些数据对文化特定的 LLMS 进行微调，以及一个统一模型 (CultureLLM-One) 来覆盖 9 种文化。实验结果表明 CultureLLM 在各种文化相关数据集上的性能明显优于其他对比模型，例如 GPT-3.5（8.1%）和 Gemini Pro（9.5%），且与 GPT-4 相当甚至更好。人类研究结果显示生成的样本在语义上与原样本相等，为 LLMs 的增强提供了有效的解决方案。

Feb, 2024

测量和建模LLMs中的“文化”: 一项调查

对研究大型语言模型中文化表示和包容性的39篇最新论文进行概述，发现这些研究中没有明确定义“文化”，而是通过一些特殊设计的数据集来探索模型，这些数据集代表了文化的某些方面；我们称这些方面为文化的代理，按人口统计学、语义和语言文化交互代理三个维度将其组织起来，并对使用的探测方法进行分类。分析表明，只有文化的某些方面，如价值观和目标，得到了研究，其他一些有趣且重要的方面，尤其是语义领域的多样性和主题向度，尚未被探索。另外，目前的方法缺乏鲁棒性和情境性。基于这些观察，提供了关于进一步促进LLM和基于LLM的应用中文化包容的全面可行的研究议程的几点建议。

Mar, 2024

文化协作：AI辅助的互动式红色对抗测试，应对在低动态范围线性模型中文化多元知识的挑战

CulturalTeaming是一个人工智能系统，与人类合作创建多元文化知识评估数据集，通过与人类的互动合作，利用大型语言模型的自动化功能，提高文本注释者的能力并改善他们的体验，从而评估大型语言模型的多元文化知识，并揭示了现代大型语言模型在多元文化能力上存在的显著差距。

Apr, 2024

NORMAD: 一种用于度量大型语言模型文化适应性的基准

我们的研究关注大型语言模型（LLMs）适应不同社会文化规范的能力，通过介绍NormAd数据集评估LLMs在不同社会文化情境中适应性的表现。研究发现LLMs在文化推理上存在困难，尤其对于来自南方全球的文化相对于以英语为中心的文化更难适应。LLMs在评估跨文化礼物给予的故事时表现较差，对于符合文化规范的故事比违背规范的故事更容易评估社会可接受性。我们的基准测试衡量了LLMs的文化适应性，并强调了使这些技术对全球受众更加公平和有用的潜力。

Apr, 2024

文化基准：一个健壮、多样且具有挑战性的基准，用于衡量大型语言模型的（缺乏）文化知识

本研究旨在解决现有大型语言模型在文化知识评估方面的不足，提出了一种新的评估工具CulturalBench，包含1,227个涵盖45个全球区域的问题。研究发现，尽管最先进的模型在某些区域表现出色，但普遍在南美和中东的问题上表现不佳，尤其在回答多答案问题时趋向于单一答案。

Oct, 2024

文化背景导向谈话的LLM-人类流程

本研究解决了自然语言处理模型在对话中缺乏文化意识的问题。我们提出了一种“文化背景框架”，整合了对话信息和文化信息，并生成了大量符合中国文化的社会规范与违规行为描述。实验结果表明，该数据集提升了情感、情绪和对话行为检测等下游任务的性能。

Oct, 2024

驾驭文化万花筒：大型语言模型敏感性的搭便车指南

本研究解决了大型语言模型（LLMs）在全球应用中面临的文化敏感性挑战，特别是小参数模型缺乏捕捉全球文化细微差别的训练数据。通过创建文化伤害测试数据集和文化对齐偏好数据集，我们提供了评估和增强LLMs文化敏感性的方法，研究表明整合文化反馈显著改善模型输出，从而促进更具包容性和尊重的人工智能系统的发展。

Oct, 2024

语言模型中的文化意识调查：文本及其他

本研究针对大规模语言模型在应用中对用户文化敏感性的需求进行了调查，指出了当前文献中的不足之处。通过提出跨文化数据集的创建方法和文化纳入策略，本论文总结了在文本和多模态语言模型中增强文化意识的最新进展。研究发现，推动文化对齐不仅能提高语言模型的包容性，还有助于社会科学研究的发展。

Oct, 2024