多元文化常识知识蒸馏
通过从维基百科文献到链接页面的导航,建立文化知识的多元多样化采集方法与 CultureAtlas 数据集,该数据集涵盖了各种亚国家地理区域和族群,用于评估语言模型在文化多元背景下的表现和开发具有文化敏感和意识的语言模型,以促进数字领域中全球文化的更具包容性和平衡的表达。
Feb, 2024
提出了一种经济高效的解决方案 CultureLLM,利用 World Value Survey (WVS) 作为种子数据,通过提议的语义数据增强方法生成语义上等价的训练数据,然后使用这些数据对文化特定的 LLMS 进行微调,以及一个统一模型 (CultureLLM-One) 来覆盖 9 种文化。实验结果表明 CultureLLM 在各种文化相关数据集上的性能明显优于其他对比模型,例如 GPT-3.5(8.1%)和 Gemini Pro(9.5%),且与 GPT-4 相当甚至更好。人类研究结果显示生成的样本在语义上与原样本相等,为 LLMs 的增强提供了有效的解决方案。
Feb, 2024
通过对多个最先进的大型语言模型的文化常识任务的能力和限制进行全面检验,我们发现大型语言模型在文化特定的常识知识上的表现存在显著差异,其通用常识能力受到文化环境的影响,并且提出查询大型语言模型所使用的语言会影响其在与文化相关的任务上的表现,我们的研究指出了大型语言模型在文化理解方面的固有偏见,并提供了帮助开发具备文化意识的语言模型的洞见。
May, 2024
本文提出了一个用于在大规模上提取高质量文化常识知识 (CCsk) 的端到端方法,名为 CANDLE,该方法从 Web 语料库中提取 CCsk 断言并将它们组织成相符的类群,包括地理、宗教、职业等 3 个领域,多个文化方面。通过分类过滤和趣味分数评估方法,CANDLE 优于先前的作品,并且实验评估演示了 CCsk 对 GPT-3 语言模型带来的好处。
Oct, 2022
本文介绍了一种从庞大的非结构化语料库中提取高质量文化相关调优数据集的新型流程。通过自我生成流程识别文化概念和触发指令,并与通用指令调优数据集相结合,我们的模型展示出了较强的识别和理解区域文化细微差别的能力,从而增强了其推理能力。我们在新加坡、菲律宾和美国三个地区开展了实验,取得了高达 6% 的性能改进。我们的研究为直接从非结构化数据中提取文化指令调优集开辟了新的途径,并为未来在该领域的创新设立了先例。
May, 2024
提出了 MANGO 基准测试,用于评估大型语言模型在执行基于文本的映射和导航任务时的能力,结果表明即使是迄今为止最强的语言模型 GPT-4 在回答这些问题上表现不佳,而具备强大的映射和导航能力的语言模型对于执行相关下游任务(如玩文本游戏)将会有所好处。
Mar, 2024
通过 Multi-CoT 一致知识蒸馏 (MCC-KD) 方法,我们提出了一种提升大型语言模型的推理能力、实现多样性和一致性的方法,并验证其在数学推理和常识推理的基准测试中的优秀性能和鲁棒泛化能力。
Oct, 2023
为了促进通识推理(CSR)的进一步发展,作者提出了用于评估和改进流行的多语言语言模型(ML-LMs)的方法,其中包括收集 Mickey 语料库、提出综合的评估方法和介绍多语言对比预训练(MCP)的有效性。作者还创建了两个新数据集,X-CSQA 和 X-CODAH,以评估流行的 ML-LMs 用于跨语言通识推理的能力。
Jun, 2021
通过 CulturePark,我们生成了 41,000 个文化样本,用于优化八个特定文化的 LLM。我们在内容审查、文化协调和文化教育三个下游任务中评估了这些模型,结果表明在内容审查方面,基于 GPT-3.5 的模型要么与 GPT-4 相匹配,要么胜过它。在文化协调方面,我们的模型优于 GPT-4 的 Hofstede 的 VSM 13 框架。此外,针对人类参与者的文化教育,我们的模型在学习效果和用户体验方面与 GPT-4 相比展现了卓越的结果。CulturePark 是解决文化偏见和推动人工智能民主化的重要进展,突显了文化包容性数据在模型训练中的关键作用。
May, 2024
本文介绍了一个多语种、跨文化的基准数据集 GeoMLAMA,旨在探究多语种 PLMs 中通用知识的多样性,通过在 11 个标准多语种 PLMs 上的测试,发现尺寸较大的多语种 PLMs 并不一定比尺寸较小的更好地存储多样的概念,语言不一定能很好地反映其本地文化的知识,而一个语言在探索非本国国家的知识时,则可能比探索本国国家的知识更好。
May, 2022