文化协作:AI辅助的互动式红色对抗测试,应对在低动态范围线性模型中文化多元知识的挑战
利用GPT-4自动生成并通过人工验证的方式,我们构建了一个评估LLMs文化维度的新基准,CDEval。通过研究主流LLMs的文化方面,我们得出了一些有趣的结论,强调了在LLM开发中整合文化考量的重要性,特别是在多元文化环境中的应用。通过CDEval,我们旨在为LLM的未来发展和评估提供一个更全面的框架,为文化研究提供宝贵的资源,为构建更具文化意识和敏感性的模型铺平道路。
Nov, 2023
通过从维基百科文献到链接页面的导航,建立文化知识的多元多样化采集方法与CultureAtlas数据集,该数据集涵盖了各种亚国家地理区域和族群,用于评估语言模型在文化多元背景下的表现和开发具有文化敏感和意识的语言模型,以促进数字领域中全球文化的更具包容性和平衡的表达。
Feb, 2024
我们的研究关注大型语言模型(LLMs)适应不同社会文化规范的能力,通过介绍NormAd数据集评估LLMs在不同社会文化情境中适应性的表现。研究发现LLMs在文化推理上存在困难,尤其对于来自南方全球的文化相对于以英语为中心的文化更难适应。LLMs在评估跨文化礼物给予的故事时表现较差,对于符合文化规范的故事比违背规范的故事更容易评估社会可接受性。我们的基准测试衡量了LLMs的文化适应性,并强调了使这些技术对全球受众更加公平和有用的潜力。
Apr, 2024
通过CulturePark,我们生成了41,000个文化样本,用于优化八个特定文化的LLM。我们在内容审查、文化协调和文化教育三个下游任务中评估了这些模型,结果表明在内容审查方面,基于GPT-3.5的模型要么与GPT-4相匹配,要么胜过它。在文化协调方面,我们的模型优于GPT-4的Hofstede的VSM 13框架。此外,针对人类参与者的文化教育,我们的模型在学习效果和用户体验方面与GPT-4相比展现了卓越的结果。CulturePark是解决文化偏见和推动人工智能民主化的重要进展,突显了文化包容性数据在模型训练中的关键作用。
May, 2024
本研究评估了多语种大型语言模型的性能,发现GPT-4o和Llama-3 70B模型在大多数Indic语言中表现最佳。我们构建了两个评估设置的排行榜,并分析了人类评估和语言模型评估之间的一致性,发现在两两比较的设置下,人类和语言模型的一致性较高,但在直接评估中特别是对于孟加拉语和奥迪亚语等语言,一致性下降。我们还检测了人类和语言模型评估中的各种偏见,并发现GPT评估器存在自我偏见。本研究对多语种大型语言模型的评估具有重要意义。
Jun, 2024
本研究针对大型语言模型(LLMs)在理解和处理特定文化知识方面的能力进行了基准评估,重点关注客家文化。使用布鲁姆分类法,建立了一个多维框架,评估LLMs在六个认知领域的表现,并发现检索增强生成(RAG)技术能够显著提升准确性,尤其是在需要精准检索和应用文化知识的任务中。研究结果彰显了这一基准在推动AI驱动的文化知识保存与传播方面的重要价值。
Sep, 2024
本研究旨在解决现有大型语言模型在文化知识评估方面的不足,提出了一种新的评估工具CulturalBench,包含1,227个涵盖45个全球区域的问题。研究发现,尽管最先进的模型在某些区域表现出色,但普遍在南美和中东的问题上表现不佳,尤其在回答多答案问题时趋向于单一答案。
Oct, 2024
本研究解决了大型语言模型(LLMs)在全球应用中面临的文化敏感性挑战,特别是小参数模型缺乏捕捉全球文化细微差别的训练数据。通过创建文化伤害测试数据集和文化对齐偏好数据集,我们提供了评估和增强LLMs文化敏感性的方法,研究表明整合文化反馈显著改善模型输出,从而促进更具包容性和尊重的人工智能系统的发展。
Oct, 2024
本研究针对大规模语言模型在应用中对用户文化敏感性的需求进行了调查,指出了当前文献中的不足之处。通过提出跨文化数据集的创建方法和文化纳入策略,本论文总结了在文本和多模态语言模型中增强文化意识的最新进展。研究发现,推动文化对齐不仅能提高语言模型的包容性,还有助于社会科学研究的发展。
Oct, 2024
本研究针对当前对大型语言模型(LLMs)文化价值观的研究不足,提出了LLM-GLOBE基准,以评估LLMs中的文化价值体系。通过采用新的“LLMs作为陪审团”的方法,研究比较了中美两国LLMs的文化价值观,结果显示东西方文化价值体系之间的异同,为后续的模型开发和评估提供了重要启示。
Nov, 2024