EnCBP: 英语中更细粒度的文化背景预测的新基准数据集

ACLMar, 2022

EnCBP: 英语中更细粒度的文化背景预测的新基准数据集

EnCBP: A New Benchmark Dataset for Finer-Grained Cultural Background Prediction in English

Weicheng Ma, Samiha Datta, Lili Wang, Soroush Vosoughi

TL;DR本文介绍了如何通过 EnCBP 数据集中的语言建模评估和人工分析，证实英语五个说话国家和美国四个州之间存在明显的语言差异。在 CoNLL-2003、PAWS-Wiki、QNLI、STS-B、RTE、SST-5、SST-2、情感和 Go-Emotions 等任务上的评测表明，引入文化背景信息明显提高了深度学习模型在大多数任务上的性能。

Abstract

While cultural backgrounds have been shown to affect linguistic expressions, existing natural language processing (NLP) research on culture modeling is overly coarse-grained and does not examine cultural differences among speakers of the same language. To address this problem and augme

culture modeling language modeling cultural background nlp models encbp

发现论文，激发创造

CulturePark: 大型语言模型中跨文化理解的提升

通过 CulturePark，我们生成了 41,000 个文化样本，用于优化八个特定文化的 LLM。我们在内容审查、文化协调和文化教育三个下游任务中评估了这些模型，结果表明在内容审查方面，基于 GPT-3.5 的模型要么与 GPT-4 相匹配，要么胜过它。在文化协调方面，我们的模型优于 GPT-4 的 Hofstede 的 VSM 13 框架。此外，针对人类参与者的文化教育，我们的模型在学习效果和用户体验方面与 GPT-4 相比展现了卓越的结果。CulturePark 是解决文化偏见和推动人工智能民主化的重要进展，突显了文化包容性数据在模型训练中的关键作用。

May, 2024

大规模多元文化知识获取与语言模型基准测试

通过从维基百科文献到链接页面的导航，建立文化知识的多元多样化采集方法与 CultureAtlas 数据集，该数据集涵盖了各种亚国家地理区域和族群，用于评估语言模型在文化多元背景下的表现和开发具有文化敏感和意识的语言模型，以促进数字领域中全球文化的更具包容性和平衡的表达。

Feb, 2024

CRAFT: 从野外提取和调整文化指引

本文介绍了一种从庞大的非结构化语料库中提取高质量文化相关调优数据集的新型流程。通过自我生成流程识别文化概念和触发指令，并与通用指令调优数据集相结合，我们的模型展示出了较强的识别和理解区域文化细微差别的能力，从而增强了其推理能力。我们在新加坡、菲律宾和美国三个地区开展了实验，取得了高达 6% 的性能改进。我们的研究为直接从非结构化数据中提取文化指令调优集开辟了新的途径，并为未来在该领域的创新设立了先例。

May, 2024

CultureBank：朝向具有文化意识的语言技术的在线社区驱动式知识库

为增强语言模型的文化意识，我们设计了一个通用的流程来从不同的在线社区大规模构建文化知识库。通过该流程，我们构建了一个基于 TikTok 用户自述和 Reddit 的文化描述信息的 CultureBank 知识库，包含 12K 个文化描述符和 11K 个上下文化场景。使用 CultureBank，我们评估了不同语言模型的文化意识，并找出改进的领域。我们还在 CultureBank 上微调了一个语言模型：实验证明它在零 - shot 设定下在两个后续文化任务上有更好的性能。最后，基于我们的发现，我们为未来的文化意识语言技术提供了建议。

Apr, 2024

NusaWrites：为代表性和极度资源匮乏的语言构建高质量语料库

对印尼本土语言进行案例研究的结果表明，原生说话者通过段落撰写所生成的数据集在词汇多样性和文化内容方面优质，有助于推广自然语言处理技术到较少研究的语言领域。

Sep, 2023

语言污染现象解释英语预训练模型的跨语言能力

本文研究预训练语言模型在跨语言转移方面的表现，发现常见的英文预训练集中包含大量非英文文本，即使数量仅占不到 1%，也会导致大规模数据集中有数亿个外语词汇。作者还展示了即使是这些少量的非英文数据，也能够促进模型在目标语言上的跨语言转移，并且目标语言性能与预训练中见到的该语言数据量强相关。因此，我们认为在评估跨语言转移时，应该考虑到预训练模型不是真正的单语言模型。

Apr, 2022

CultureLLM: 将文化差异融入大型语言模型

提出了一种经济高效的解决方案 CultureLLM，利用 World Value Survey (WVS) 作为种子数据，通过提议的语义数据增强方法生成语义上等价的训练数据，然后使用这些数据对文化特定的 LLMS 进行微调，以及一个统一模型 (CultureLLM-One) 来覆盖 9 种文化。实验结果表明 CultureLLM 在各种文化相关数据集上的性能明显优于其他对比模型，例如 GPT-3.5（8.1%）和 Gemini Pro（9.5%），且与 GPT-4 相当甚至更好。人类研究结果显示生成的样本在语义上与原样本相等，为 LLMs 的增强提供了有效的解决方案。

Feb, 2024

使用类型学属性增强自然语言处理模型的跨语言行为测试

本文提出了 M2C，这是一种对自然语言处理模型进行语言特征行为测试的框架，并评估了 12 种类型不同的语言在不同特征测试下的表现，结果发现 NLP 模型在英语上的表现较好，但在斯瓦希里语等语言的某些特殊语言特征测试上表现不佳，这启示我们需要发展解决这些缺陷的模型。

Jul, 2023

PsyBench: 一个平衡且深入的心理学中文评估基准

LLMs 在各领域越来越普及，因此迫切需要改进的 NLP 基准来涵盖各个学科的必要知识。为了解决这个问题，作者提出了 psybench，这是第一个详尽覆盖研究领域所需知识的全面中文评估套件，通过多项选择题深入评估模型在心理学中的优势和劣势，并发现不同领域的性能存在显著差异，展示了测试集中知识不均衡可能导致结果偏斜的风险，仅 ChatGPT 模型的平均准确率超过 70％，表明仍有很大的改进空间。总之，psybench 将有助于对基本模型的优势和劣势进行全面评估，并在心理学领域的实际应用中提供支持。

Nov, 2023

CultureBERT：为企业文化微调基于 Transformer 的语言模型

本研究将监督式机器学习应用于从文本文档中度量企业文化的文献中，通过对员工评论数据集的人工标注，细调基于转换器的语言模型进行分类预测，相比传统的文本分类方法，我们的语言模型可以将员工评论的 16 至 28 个百分点与人类评估者产生一致性，并将我们的模型公开发布。

Dec, 2022