语言模型中的文化意识调查:文本及其他
使用Hofstede的文化维度框架,通过潜变量分析提供解释性跨文化比较,文中提出了Cultural Alignment Test(CAT)以解决大型语言模型(LLMs)的文化不匹配问题,并使用不同的提示样式和超参数设置评估了ChatGPT和Bard等LLMs嵌入在美国、沙特阿拉伯、中国和斯洛伐克等不同文化之中的文化价值。结果不仅量化了LLMs与特定国家的文化一致性,还揭示了LLMs在解释性文化维度方面的差异。其中GPT-4在理解美国文化价值方面得分最高。
Aug, 2023
利用GPT-4自动生成并通过人工验证的方式,我们构建了一个评估LLMs文化维度的新基准,CDEval。通过研究主流LLMs的文化方面,我们得出了一些有趣的结论,强调了在LLM开发中整合文化考量的重要性,特别是在多元文化环境中的应用。通过CDEval,我们旨在为LLM的未来发展和评估提供一个更全面的框架,为文化研究提供宝贵的资源,为构建更具文化意识和敏感性的模型铺平道路。
Nov, 2023
通过调查人类社会学的实际问卷与模型响应的对比,我们的研究发现,大型语言模型 (LLMs) 在两个维度上表现出更高的文化一致性,即当以特定文化的主要语言作为提示时,以及当使用该文化所采用的多语言精炼混合体系进行预训练时,对于模拟调查的不同人物与敏感社会议题,模型的文化一致性更加重要。最后,我们引入了人类学提示的创新方法,利用人类学推理增强文化一致性。我们的研究强调了更平衡的多语言预训练数据集对于更好地代表人类经验多样性和不同文化的复数性,对于跨语言传递的影响的必要性。
Feb, 2024
对研究大型语言模型中文化表示和包容性的39篇最新论文进行概述,发现这些研究中没有明确定义“文化”,而是通过一些特殊设计的数据集来探索模型,这些数据集代表了文化的某些方面;我们称这些方面为文化的代理,按人口统计学、语义和语言文化交互代理三个维度将其组织起来,并对使用的探测方法进行分类。分析表明,只有文化的某些方面,如价值观和目标,得到了研究,其他一些有趣且重要的方面,尤其是语义领域的多样性和主题向度,尚未被探索。另外,目前的方法缺乏鲁棒性和情境性。基于这些观察,提供了关于进一步促进LLM和基于LLM的应用中文化包容的全面可行的研究议程的几点建议。
Mar, 2024
CulturalTeaming是一个人工智能系统,与人类合作创建多元文化知识评估数据集,通过与人类的互动合作,利用大型语言模型的自动化功能,提高文本注释者的能力并改善他们的体验,从而评估大型语言模型的多元文化知识,并揭示了现代大型语言模型在多元文化能力上存在的显著差距。
Apr, 2024
通过对110个国家和地区的8个与文化有关的主题的文化条件生成,以及从这些生成中提取与每个文化相关的符号,我们发现文化条件生成由区分边缘文化与默认文化的语言“标记”组成,而且发现LLM在文化符号的多样性方面存在不平衡,并且来自不同地理区域的文化在LLM的文化无关生成中存在不同的存在。我们的发现促进了进一步研究LLM中全球文化知识和公平感知的研究。
Apr, 2024
我们的研究关注大型语言模型(LLMs)适应不同社会文化规范的能力,通过介绍NormAd数据集评估LLMs在不同社会文化情境中适应性的表现。研究发现LLMs在文化推理上存在困难,尤其对于来自南方全球的文化相对于以英语为中心的文化更难适应。LLMs在评估跨文化礼物给予的故事时表现较差,对于符合文化规范的故事比违背规范的故事更容易评估社会可接受性。我们的基准测试衡量了LLMs的文化适应性,并强调了使这些技术对全球受众更加公平和有用的潜力。
Apr, 2024
通过CulturePark,我们生成了41,000个文化样本,用于优化八个特定文化的LLM。我们在内容审查、文化协调和文化教育三个下游任务中评估了这些模型,结果表明在内容审查方面,基于GPT-3.5的模型要么与GPT-4相匹配,要么胜过它。在文化协调方面,我们的模型优于GPT-4的Hofstede的VSM 13框架。此外,针对人类参与者的文化教育,我们的模型在学习效果和用户体验方面与GPT-4相比展现了卓越的结果。CulturePark是解决文化偏见和推动人工智能民主化的重要进展,突显了文化包容性数据在模型训练中的关键作用。
May, 2024
本研究解决了大型语言模型(LLMs)在全球应用中面临的文化敏感性挑战,特别是小参数模型缺乏捕捉全球文化细微差别的训练数据。通过创建文化伤害测试数据集和文化对齐偏好数据集,我们提供了评估和增强LLMs文化敏感性的方法,研究表明整合文化反馈显著改善模型输出,从而促进更具包容性和尊重的人工智能系统的发展。
Oct, 2024
本文提出了一种将语言人类学与机器学习整合的新方法,旨在解决语言和机器学习技术的社会责任之间的关系。通过分析人类用户与大型语言模型驱动的聊天机器人之间的对话,展示了文化可解释性(CI)作为一种新兴研究领域的理论可行性。研究结果强调了语言与文化的动态关系,提供了改进语言模型与多样化语言使用者及文化社群价值对齐的洞察。
Nov, 2024