May, 2023

跨语言综合偏差:扩展描述和模式以揭示大规模语言中的人口统计学偏差

TL;DR介绍了一个多语言扩展的 HOLISTICBIAS 数据集,提供了一个综合的人称参考英语模板分类法,旨在发现人口统计不平衡并量化缓解措施。初步研究表明,在评估平均人类阅读者时,EN-to-XX 翻译的质量比女性更好,而对于主题相同但性别不同的情况,则男性翻译平均比女性更好。在将句子嵌入到联合多语言句子表示空间时,我们发现对于大多数语言,男性翻译与英语中性句子更接近。