驾驭文化万花筒:大型语言模型敏感性的搭便车指南
使用Hofstede的文化维度框架,通过潜变量分析提供解释性跨文化比较,文中提出了Cultural Alignment Test(CAT)以解决大型语言模型(LLMs)的文化不匹配问题,并使用不同的提示样式和超参数设置评估了ChatGPT和Bard等LLMs嵌入在美国、沙特阿拉伯、中国和斯洛伐克等不同文化之中的文化价值。结果不仅量化了LLMs与特定国家的文化一致性,还揭示了LLMs在解释性文化维度方面的差异。其中GPT-4在理解美国文化价值方面得分最高。
Aug, 2023
文化在人们的推理、行为和交流中起着根本性的作用。生成性人工智能(AI)技术可能导致文化的转变。我们对大型语言模型进行文化偏差审核,将它们的回应与全国代表性调查数据进行比较,并评估特定国家的提示作为缓解策略。我们发现,GPT-4、3.5和3展现出类似英语和新教欧洲国家的文化价值观。我们的缓解策略减少了近期模型中的文化偏差,但并不适用于所有国家/地区。为了避免在生成性人工智能中存在文化偏见,尤其是在高风险环境中,我们建议使用文化匹配和持续进行文化审核。
Nov, 2023
利用GPT-4自动生成并通过人工验证的方式,我们构建了一个评估LLMs文化维度的新基准,CDEval。通过研究主流LLMs的文化方面,我们得出了一些有趣的结论,强调了在LLM开发中整合文化考量的重要性,特别是在多元文化环境中的应用。通过CDEval,我们旨在为LLM的未来发展和评估提供一个更全面的框架,为文化研究提供宝贵的资源,为构建更具文化意识和敏感性的模型铺平道路。
Nov, 2023
CulturalTeaming是一个人工智能系统,与人类合作创建多元文化知识评估数据集,通过与人类的互动合作,利用大型语言模型的自动化功能,提高文本注释者的能力并改善他们的体验,从而评估大型语言模型的多元文化知识,并揭示了现代大型语言模型在多元文化能力上存在的显著差距。
Apr, 2024
通过对110个国家和地区的8个与文化有关的主题的文化条件生成,以及从这些生成中提取与每个文化相关的符号,我们发现文化条件生成由区分边缘文化与默认文化的语言“标记”组成,而且发现LLM在文化符号的多样性方面存在不平衡,并且来自不同地理区域的文化在LLM的文化无关生成中存在不同的存在。我们的发现促进了进一步研究LLM中全球文化知识和公平感知的研究。
Apr, 2024
我们的研究关注大型语言模型(LLMs)适应不同社会文化规范的能力,通过介绍NormAd数据集评估LLMs在不同社会文化情境中适应性的表现。研究发现LLMs在文化推理上存在困难,尤其对于来自南方全球的文化相对于以英语为中心的文化更难适应。LLMs在评估跨文化礼物给予的故事时表现较差,对于符合文化规范的故事比违背规范的故事更容易评估社会可接受性。我们的基准测试衡量了LLMs的文化适应性,并强调了使这些技术对全球受众更加公平和有用的潜力。
Apr, 2024
通过CulturePark,我们生成了41,000个文化样本,用于优化八个特定文化的LLM。我们在内容审查、文化协调和文化教育三个下游任务中评估了这些模型,结果表明在内容审查方面,基于GPT-3.5的模型要么与GPT-4相匹配,要么胜过它。在文化协调方面,我们的模型优于GPT-4的Hofstede的VSM 13框架。此外,针对人类参与者的文化教育,我们的模型在学习效果和用户体验方面与GPT-4相比展现了卓越的结果。CulturePark是解决文化偏见和推动人工智能民主化的重要进展,突显了文化包容性数据在模型训练中的关键作用。
May, 2024
本研究解决了大型语言模型(LLMs)在不同语言资源可用性下,反映国家社会价值观的能力差异问题。通过分析,我们发现数字资源的可用性对模型性能的影响显著,尤其是在低资源语言中性能下降明显,可能加剧数字鸿沟。研究提出了通过建立多语言LLMs和丰富多样的语言数据集进行微调的策略,以改善弱资源语言的表现。
Oct, 2024
本研究针对大规模语言模型在应用中对用户文化敏感性的需求进行了调查,指出了当前文献中的不足之处。通过提出跨文化数据集的创建方法和文化纳入策略,本论文总结了在文本和多模态语言模型中增强文化意识的最新进展。研究发现,推动文化对齐不仅能提高语言模型的包容性,还有助于社会科学研究的发展。
Oct, 2024
本研究针对当前对大型语言模型(LLMs)文化价值观的研究不足,提出了LLM-GLOBE基准,以评估LLMs中的文化价值体系。通过采用新的“LLMs作为陪审团”的方法,研究比较了中美两国LLMs的文化价值观,结果显示东西方文化价值体系之间的异同,为后续的模型开发和评估提供了重要启示。
Nov, 2024