富裕国家与更丰富的图像表现

ACLMay, 2022

Richer Countries and Richer Representations

Kaitlyn Zhou, Kawin Ethayarajh, Dan Jurafsky

TL;DR本文研究了一些国家在嵌入空间中的代表性是否比其他国家更高，发现在训练语料库中出现频率较低的国家更可能被标记为子词，嵌入空间中的语义差异较小，且更难以正确预测，而这些问题与这些国家的频率有关，而频率与国家的 GDP 高度相关，加剧了历史上的权力和财富不平等。作者分析了缓解的有效性，并建议研究人员报告训练词频，未来的工作则是定义和设计代表性保证。

Abstract

We examine whether some countries are more richly represented in embedding space than others. We find that countries whose names occur with low frequency in training corpora are more likely to be tokenized into subwords, are less semantically distinct in →

embedding space tokenization semantics frequency gdp

发现论文，激发创造

名望的职业和名望的国家是否相同？多语句嵌入和欧洲国家的案例研究

研究多语言句子表示如何捕捉欧洲国家以及这在欧洲语言中的差异，发现嵌入中最突出的国家特征是其以 GPD 为代表的经济实力。同时，职业维度与国家维度不相关，但某些模型存在职业声望与原籍国之间的联系，这可能是基于国籍的歧视的潜在来源。在所研究的表示模型中，这些发现在语言上是一致的，但在某些方面除外。

May, 2023

词嵌入相似度计算方式的频率依赖性

本文系统研究了几种静态词向量嵌入中单词频率与语义相似性之间的关联，并发现高频单词之间的相似性更高。同时，本文还探究了单词频率对基于嵌入的性别偏见测量的影响，并证明通过操纵单词频率可使偏见发生倒转。

Nov, 2022

语言生成中的地理抹除

使用自定义目标进行微调，研究和实施了一种地理抹除形式，均衡地捕捉 LLM 中低频率的国家提及，从而减轻了地理抹除现象。

Oct, 2023

公共领域感知映射的简单动态词嵌入

本文提出了一个统一动态嵌入模型，它能学习属性特定的单词嵌入，在历史语料库中调查了性别、种族和难民等方面的偏见。结果发现，动态嵌入模型与独立向量空间模型相比，在表示语言偏见方面更具优越性或更劣。

Apr, 2019

词向量中的性别偏见：频率、语法和语义的全面分析

研究发现，英语语料库中的统计规律将社会中已知的性别偏见编码为词嵌入中的群体偏见。使用单类别词嵌入关联测试，作者发现广泛存在性别偏差，这些偏差在词频、词性标记、语义类别和情绪情感方面均有所不同。男性更倾向于与技术、工程、宗教、体育和暴力等概念相关联，而女性则偏向于涉及外观和厨房等领域。同时，男性相关的词汇具有更强的情绪唤起和主导性，而女性相关的词汇则更加温馨。

Jun, 2022

FRAGE: 频率无关字表示

本文介绍了一种通过对抗性训练学习频率不可知词嵌入（FRAGE）的方法，可使得语义相似的高频和低频词语在同一词嵌入空间中，实验表明此方法在十种数据集上均优于基准。

Sep, 2018

预训练语言模型对某些地理人群的表现优于其他人群

本研究使用空间探测任务和地理参考文献，评估了 OPT 和 BLOOM 系列预训练语言模型在代表全球不同人口群体方面的偏见程度。结果显示，这些模型在某些人口群体中表现得更好，而在南亚和东南亚等地的人口群体中则表现较差。分析结果显示，这种偏见不能完全通过社会语言学因素、经济因素或地理因素来解释。因此，本研究的基本结论是，预训练模型不能平等地代表世界人口，存在强烈的地域偏倚。该发现质疑了一种模型适用于所有人口群体的观点。

Mar, 2024

检验文图生成模型图像地理代表性

本文中，我们采用众包研究来衡量使用 DALL.E 2 和 Stable Diffusion 模型对普通名词进行生成时，生成图像对全球各地表现力的代表性。我们发现，对于没有特定国名的输入，生成的图像表现美国和印度的环境最好，其他国家的表现不如其它的。如果在输入中指定国家名称，则 DALL.E 2 的表现提升了 1.44 分，Stable Diffusion 的表现提升了 0.75 分，但许多国家的总体得分仍然很低，需要未来的模型在地理上更加包容。最后，我们研究了在不进行用户研究的情况下量化生成图像在地理上的代表性的可行性。

May, 2023

基于词嵌入的性别偏见度量的不良频率依赖性

本文研究了使用基于词嵌入的偏差度量方法在衡量女性和男性性别偏差时词频对结果的影响，并发现 Skip-gram with negative sampling 和 GloVe 往往会在高频词中检测到男性偏见，而 GloVe 往往会在低频词中检测到女性偏见，并进一步通过与基于点互信息的替代度量方法进行比较，证明了频率对度量结果的影响来自度量本身而非词汇相关性，这种影响是虚假和有问题的，因为偏见度量应该专门依赖于词共现而不是个体词频，尽管基于点互信息的度量略微偏向男性，但它并不表现出清晰的频率依赖关系。

Jan, 2023

词嵌入量化了 100 年来的性别与族裔刻板印象

本文通过将语义学关系嵌入向量，展示词嵌入的时间动态如何被利用来量化美国 20 世纪至 21 世纪对女性和少数民族的刻板印象和态度变化，通过与美国人口普查融合，表明嵌入的变化与时间内的人口和职业转变密切相关，该框架的时间分析为机器学习和数量社会科学之间的新交叉打开了强大的可能性。

Nov, 2017