Jan, 2025
语言模型中文化偏见的起源:从预训练数据到语言现象
On The Origin of Cultural Biases in Language Models: From Pre-training
Data to Linguistic Phenomena
TL;DR本研究探讨了语言模型在非西方语言中对西方文化实体的偏好,揭示了实体相关文化偏见的来源。通过引入CAMeL-2基准,评估了阿拉伯语和英语中的实体表现,发现语言模型在阿拉伯语中的表现差异以及频率基础的标记化导致的文化偏见加剧。此工作的潜在影响在于优化多语言模型的公平性与准确性。