文化基准:一个健壮、多样且具有挑战性的基准,用于衡量大型语言模型的(缺乏)文化知识
该研究通过引入一种新的少样本问答任务(CPopQA),评估了大型语言模型(LLMs)对长尾文化概念(如假期)的统计排名能力,特别关注这些概念在美国和英国的受欢迎程度,并发现GPT-3.5在跨大洲识别地理文化接近性方面表现出卓越性能。
Nov, 2023
通过从维基百科文献到链接页面的导航,建立文化知识的多元多样化采集方法与CultureAtlas数据集,该数据集涵盖了各种亚国家地理区域和族群,用于评估语言模型在文化多元背景下的表现和开发具有文化敏感和意识的语言模型,以促进数字领域中全球文化的更具包容性和平衡的表达。
Feb, 2024
使用大型语言模型生成问题回答数据集,尤其是针对低资源语言,存在领域知识和文化细微差别的困难;实验证明最佳的大型语言模型GPT-4 Turbo能够生成具备充分知识的印度尼西亚语问题,但在苏丹尼斯语上表现欠佳,凸显中资源语言与低资源语言之间的性能差异;此外,我们对各种大型语言模型在生成数据集上进行基准测试,结果表明它们在由语言模型生成的数据集上表现比人工创造的数据集更好。
Feb, 2024
LHMKE是一种大规模、全面和多学科知识评估基准,旨在为中文大型语言模型的知识获取能力提供全面评估。它包括10,465个问题,涵盖30个学科的75个任务,既包含客观题又包含主观题,以更全面评估大型语言模型的知识水平。我们对11个中文大型语言模型进行了零-shot评估,并比较了它们在不同学科的性能。通过深入分析,我们也验证了GPT-4是否能够自动评分主观预测。我们的研究结果表明,LHMKE是一个具有挑战性和先进性的中文大型语言模型评估标准。
Mar, 2024
CulturalTeaming是一个人工智能系统,与人类合作创建多元文化知识评估数据集,通过与人类的互动合作,利用大型语言模型的自动化功能,提高文本注释者的能力并改善他们的体验,从而评估大型语言模型的多元文化知识,并揭示了现代大型语言模型在多元文化能力上存在的显著差距。
Apr, 2024
本文介绍了WorldValuesBench,这是一个全球多元化的大规模基准数据集,用于多元文化价值预测任务,要求模型基于人口统计上下文生成对价值问题的评分回答。该数据集源自一个有影响力的社会科学项目World Values Survey(WVS),从全球94728名参与者那里收集了数百个价值问题(例如社会、经济、伦理学)。我们从WVS的回答中构建了超过2000万个“(人口统计属性,价值问题) → 回答”的例子。我们使用这个数据集进行了案例研究,并表明这个任务对于强大的开源和闭源模型来说是具有挑战性的。在仅11.1%、25.0%、72.2%和75.0%的问题上,Alpaca-7B、Vicuna-7B-v1.5、Mixtral-8x7B-Instruct-v0.1和GPT-3.5 Turbo分别可以实现与人类归一化答案分布的Wasserstein 1距离小于0.2。WorldValuesBench为研究语言模型中的多元文化价值意识的局限性和机遇开辟了新的研究领域。
Apr, 2024
通过对多个最先进的大型语言模型的文化常识任务的能力和限制进行全面检验,我们发现大型语言模型在文化特定的常识知识上的表现存在显著差异,其通用常识能力受到文化环境的影响,并且提出查询大型语言模型所使用的语言会影响其在与文化相关的任务上的表现,我们的研究指出了大型语言模型在文化理解方面的固有偏见,并提供了帮助开发具备文化意识的语言模型的洞见。
May, 2024
LLMs在文化敏感性方面缺乏对日常生活的文化特定知识,不同于在线来源如维基百科,BLEnD通过手工设计的基准评估了LLMs对多元文化和语言的日常知识,结果显示LLMs在高度在线代表的文化中表现更好,而在低资源语言文化中表现更好的是英语而非本地语言。
Jun, 2024
通过介绍CaLMQA,一个涵盖23种语言的2.6K多样化问题集,我们发现大型语言模型在生成复杂问题的长篇答案时在某些低资源语言方面的质量明显下降,这突显了LLM多语言能力和非英语长篇问题回答评估中进一步研究的需求。
Jun, 2024
提出了一个可扩展的框架NativQA,以母语构建与地域文化契合的自然问答(QA)多语种数据集MultiNativQA,为大型语言模型(LLM)的评估和调优提供支持,并通过公开配置在区域和文化特异性上对MultiNativQA数据集进行了基准测试。
Jul, 2024