我们通过对电影中的 95K 个话语进行社会阶级、种族和地理语言差异的语料库注释,并对语言建模、自动语音识别和语法错误纠正三个任务中 NLP 系统的性能进行了实证研究,发现与社会经济地位、种族和地理差异有关的显著性能差异。随着 NLP 技术的日益普及和日常化,为避免对已经边缘化的群体造成不利影响,它们必须适应所有语言变体。我们主张将社会经济阶级纳入未来的语言技术中。
Mar, 2024
研究社会阶层的影响因素,使用神经模型预测社交媒体上个人的社会经济地位,探讨语言风格在预测社会经济群体方面的作用,发现新颖的词法 - 句法特征是一种有效的风格预测因素。
Jul, 2019
本研究采用软聚类方法分析社交媒体平台的用户信息,提取出包括营销、行政、软件工程师等八大职业类别。结果表明职业对应着不同的语言风格、兴趣和个性特点。最终,我们通过对推文特征的提取构建了分类器,以此实现对不同职业的准确预测。
Jan, 2017
本研究针对 Twitter 用户的情况,使用低维向量表示的图形嵌入技术来提取用户的社交网络信息,并用此信息预测 Twitter 用户的职业阶层和收入水平,结果显示该方法优于现有的方法,并且将社交网络和语言信息相结合可以进一步提高预测结果。
Apr, 2018
在自然语言处理技术中,虽然已经研究了年龄和性别等方面与语言产生之间的关系,但至今较少研究 社会经济阶级等因素。本研究通过对现有自然语言处理文献进行调查,发现只有 20 篇论文提及社会经济阶级,并且大多数论文仅限于收集注释者人口统计信息,而未深入研究该阶级。鉴于此项研究空白,我们提供了一个可在自然语言处理研究中操作的社会经济阶级定义,并主张在今后的语言技术中应包含社会经济阶级。
本研究探讨了类似于社交关系中的认知约束在语言产出中是否存在类似的规律,并通过使用特定的方法在 Twitter 数据集中发现了语言使用的结构和语义层次的规律性。结构层次中,研究员通过寻找一种叫做单词的自我网络的同心圆层次结构来捕捉单词使用的规律。语义层次中,研究员通过每个同心圆的语义资料库来描述自我网络,发现第一个同心圆扮演着特殊的角色,也是自我网络的 “语义指纹”。
Mar, 2022
本研究就机器学习在职业分类中潜在的性别歧视问题进行了大规模调研,分析了不同语义表征中包含显性性别表示(如名字和代词)对职业分类的影响,并量化了这些表示被 “擦除” 后残留的偏见,并描述了在显性性别表示缺失时出现的代理行为。同时,研究也表明,不同性别的真正正率差异与职业领域中现存的性别不平衡存在相关性,这可能加剧这些不平衡。
Jan, 2019
本文研究探讨了社交网络和在线寫作间的語言和语言格式之间的关联性,以及如何从社交网络平台中建立一种专家混合模型来增强语言变异性的鲁棒性。
研究多语言句子表示如何捕捉欧洲国家以及这在欧洲语言中的差异,发现嵌入中最突出的国家特征是其以 GPD 为代表的经济实力。同时,职业维度与国家维度不相关,但某些模型存在职业声望与原籍国之间的联系,这可能是基于国籍的歧视的潜在来源。在所研究的表示模型中,这些发现在语言上是一致的,但在某些方面除外。
May, 2023
研究 Facebook 上百所美国大学的 “友谊” 网络的社会结构,并探讨用户属性在这些机构中的作用,比较不同特征在不同机构的相对重要性,可为深入研究此类现象提供微观和宏观视角的互补洞察。
Feb, 2011