CULTURE-GEN: 透过自然语言提示揭示语言模型中的全球文化认知
利用GPT-4自动生成并通过人工验证的方式,我们构建了一个评估LLMs文化维度的新基准,CDEval。通过研究主流LLMs的文化方面,我们得出了一些有趣的结论,强调了在LLM开发中整合文化考量的重要性,特别是在多元文化环境中的应用。通过CDEval,我们旨在为LLM的未来发展和评估提供一个更全面的框架,为文化研究提供宝贵的资源,为构建更具文化意识和敏感性的模型铺平道路。
Nov, 2023
提出了一种经济高效的解决方案 CultureLLM,利用 World Value Survey (WVS) 作为种子数据,通过提议的语义数据增强方法生成语义上等价的训练数据,然后使用这些数据对文化特定的 LLMS 进行微调,以及一个统一模型 (CultureLLM-One) 来覆盖 9 种文化。实验结果表明 CultureLLM 在各种文化相关数据集上的性能明显优于其他对比模型,例如 GPT-3.5(8.1%)和 Gemini Pro(9.5%),且与 GPT-4 相当甚至更好。人类研究结果显示生成的样本在语义上与原样本相等,为 LLMs 的增强提供了有效的解决方案。
Feb, 2024
通过调查人类社会学的实际问卷与模型响应的对比,我们的研究发现,大型语言模型 (LLMs) 在两个维度上表现出更高的文化一致性,即当以特定文化的主要语言作为提示时,以及当使用该文化所采用的多语言精炼混合体系进行预训练时,对于模拟调查的不同人物与敏感社会议题,模型的文化一致性更加重要。最后,我们引入了人类学提示的创新方法,利用人类学推理增强文化一致性。我们的研究强调了更平衡的多语言预训练数据集对于更好地代表人类经验多样性和不同文化的复数性,对于跨语言传递的影响的必要性。
Feb, 2024
对研究大型语言模型中文化表示和包容性的39篇最新论文进行概述,发现这些研究中没有明确定义“文化”,而是通过一些特殊设计的数据集来探索模型,这些数据集代表了文化的某些方面;我们称这些方面为文化的代理,按人口统计学、语义和语言文化交互代理三个维度将其组织起来,并对使用的探测方法进行分类。分析表明,只有文化的某些方面,如价值观和目标,得到了研究,其他一些有趣且重要的方面,尤其是语义领域的多样性和主题向度,尚未被探索。另外,目前的方法缺乏鲁棒性和情境性。基于这些观察,提供了关于进一步促进LLM和基于LLM的应用中文化包容的全面可行的研究议程的几点建议。
Mar, 2024
通过对多个最先进的大型语言模型的文化常识任务的能力和限制进行全面检验,我们发现大型语言模型在文化特定的常识知识上的表现存在显著差异,其通用常识能力受到文化环境的影响,并且提出查询大型语言模型所使用的语言会影响其在与文化相关的任务上的表现,我们的研究指出了大型语言模型在文化理解方面的固有偏见,并提供了帮助开发具备文化意识的语言模型的洞见。
May, 2024
本研究针对大型语言模型(LLMs)在理解文化统一性方面的不足,提出了一个新的基准数据集CUNIT,用于评估其识别跨文化概念的能力。研究发现,尽管LLMs在概念关联方面表现出明显的局限性,但在服装和食品等文化概念的关联性上存在显著差异,展示了这一领域的进一步研究潜力。
Aug, 2024
本研究旨在解决现有大型语言模型在文化知识评估方面的不足,提出了一种新的评估工具CulturalBench,包含1,227个涵盖45个全球区域的问题。研究发现,尽管最先进的模型在某些区域表现出色,但普遍在南美和中东的问题上表现不佳,尤其在回答多答案问题时趋向于单一答案。
Oct, 2024
本研究解决了大型语言模型(LLMs)在不同语言资源可用性下,反映国家社会价值观的能力差异问题。通过分析,我们发现数字资源的可用性对模型性能的影响显著,尤其是在低资源语言中性能下降明显,可能加剧数字鸿沟。研究提出了通过建立多语言LLMs和丰富多样的语言数据集进行微调的策略,以改善弱资源语言的表现。
Oct, 2024
本研究解决了大型语言模型(LLMs)在全球应用中面临的文化敏感性挑战,特别是小参数模型缺乏捕捉全球文化细微差别的训练数据。通过创建文化伤害测试数据集和文化对齐偏好数据集,我们提供了评估和增强LLMs文化敏感性的方法,研究表明整合文化反馈显著改善模型输出,从而促进更具包容性和尊重的人工智能系统的发展。
Oct, 2024
本研究针对大规模语言模型在应用中对用户文化敏感性的需求进行了调查,指出了当前文献中的不足之处。通过提出跨文化数据集的创建方法和文化纳入策略,本论文总结了在文本和多模态语言模型中增强文化意识的最新进展。研究发现,推动文化对齐不仅能提高语言模型的包容性,还有助于社会科学研究的发展。
Oct, 2024