研究大型语言模型的文化一致性
本文探讨语言模型是否存在文化偏见,研究发现目前的语言模型在处理和生成阿拉伯语文本时存在明显的西方文化偏见,特别是在人名、食物、服装、地点、文学、饮料、宗教和体育等八个方面。同时,研究表明,向模型提供文化指示符或相关文化示范可以帮助消除偏见。
May, 2023
使用Hofstede的文化维度框架,通过潜变量分析提供解释性跨文化比较,文中提出了Cultural Alignment Test(CAT)以解决大型语言模型(LLMs)的文化不匹配问题,并使用不同的提示样式和超参数设置评估了ChatGPT和Bard等LLMs嵌入在美国、沙特阿拉伯、中国和斯洛伐克等不同文化之中的文化价值。结果不仅量化了LLMs与特定国家的文化一致性,还揭示了LLMs在解释性文化维度方面的差异。其中GPT-4在理解美国文化价值方面得分最高。
Aug, 2023
利用GPT-4自动生成并通过人工验证的方式,我们构建了一个评估LLMs文化维度的新基准,CDEval。通过研究主流LLMs的文化方面,我们得出了一些有趣的结论,强调了在LLM开发中整合文化考量的重要性,特别是在多元文化环境中的应用。通过CDEval,我们旨在为LLM的未来发展和评估提供一个更全面的框架,为文化研究提供宝贵的资源,为构建更具文化意识和敏感性的模型铺平道路。
Nov, 2023
对研究大型语言模型中文化表示和包容性的39篇最新论文进行概述,发现这些研究中没有明确定义“文化”,而是通过一些特殊设计的数据集来探索模型,这些数据集代表了文化的某些方面;我们称这些方面为文化的代理,按人口统计学、语义和语言文化交互代理三个维度将其组织起来,并对使用的探测方法进行分类。分析表明,只有文化的某些方面,如价值观和目标,得到了研究,其他一些有趣且重要的方面,尤其是语义领域的多样性和主题向度,尚未被探索。另外,目前的方法缺乏鲁棒性和情境性。基于这些观察,提供了关于进一步促进LLM和基于LLM的应用中文化包容的全面可行的研究议程的几点建议。
Mar, 2024
通过对110个国家和地区的8个与文化有关的主题的文化条件生成,以及从这些生成中提取与每个文化相关的符号,我们发现文化条件生成由区分边缘文化与默认文化的语言“标记”组成,而且发现LLM在文化符号的多样性方面存在不平衡,并且来自不同地理区域的文化在LLM的文化无关生成中存在不同的存在。我们的发现促进了进一步研究LLM中全球文化知识和公平感知的研究。
Apr, 2024
我们的研究关注大型语言模型(LLMs)适应不同社会文化规范的能力,通过介绍NormAd数据集评估LLMs在不同社会文化情境中适应性的表现。研究发现LLMs在文化推理上存在困难,尤其对于来自南方全球的文化相对于以英语为中心的文化更难适应。LLMs在评估跨文化礼物给予的故事时表现较差,对于符合文化规范的故事比违背规范的故事更容易评估社会可接受性。我们的基准测试衡量了LLMs的文化适应性,并强调了使这些技术对全球受众更加公平和有用的潜力。
Apr, 2024
本研究针对大型语言模型(LLMs)与其编码的文化价值观之间的对齐问题,提出了一种利用推理时现有文化价值知识的方法。通过结合上下文学习和人类调查数据,我们展示了可以有效改善五种模型(包括英语为中心的和多语言的)对文化价值的对齐,且该方法在英语以外的测试语言和多元文化国家中同样具有潜在应用价值。
Aug, 2024
本研究解决了如何在大语言模型中实现多元文化对齐的开放性问题。提出的CultureSPA框架通过生成多文化主题问题,并在文化知情与非知情设置下评估模型输出,从而收集文化实例并进行微调,显著提升了模型在多元文化中的表现与适应性。研究结果表明,该框架在不影响模型通用能力的前提下,能够有效支持多样化文化的需求。
Oct, 2024
本研究针对大规模语言模型在应用中对用户文化敏感性的需求进行了调查,指出了当前文献中的不足之处。通过提出跨文化数据集的创建方法和文化纳入策略,本论文总结了在文本和多模态语言模型中增强文化意识的最新进展。研究发现,推动文化对齐不仅能提高语言模型的包容性,还有助于社会科学研究的发展。
Oct, 2024
本文提出了一种将语言人类学与机器学习整合的新方法,旨在解决语言和机器学习技术的社会责任之间的关系。通过分析人类用户与大型语言模型驱动的聊天机器人之间的对话,展示了文化可解释性(CI)作为一种新兴研究领域的理论可行性。研究结果强调了语言与文化的动态关系,提供了改进语言模型与多样化语言使用者及文化社群价值对齐的洞察。
Nov, 2024