本文通过将语义学关系嵌入向量,展示词嵌入的时间动态如何被利用来量化美国 20 世纪至 21 世纪对女性和少数民族的刻板印象和态度变化,通过与美国人口普查融合,表明嵌入的变化与时间内的人口和职业转变密切相关,该框架的时间分析为机器学习和数量社会科学之间的新交叉打开了强大的可能性。
Nov, 2017
本文研究了公开可得的单词嵌入在某些社会层面上的偏见反映了实际调查数据,但并非所有维度的数据都能得到反映,只有最显著的偏见维度,例如性别方面,才能得到准确的反映。
Apr, 2020
研究提出了一种新的形式的个性化词嵌入,使用基于用户的完整或部分人口统计信息的构成导出,展示了人口统计学感知的词表示在两个英语任务(语言建模和词语关联)上优于通用词表示,并探讨了可用属性的数量和它们的相对有效性之间的权衡,并讨论了使用它们的伦理影响。
Oct, 2020
该研究对分布式词向量空间中的偏见效应进行了系统性分析,研究表明:偏见效应在不同的词向量模型、文本类型和语言之间是不一致的,同时,双语词向量空间中的跨语言偏见也是存在的。该研究以期促进自然语言处理中的偏见研究,为偏见缓解技术的发展提供帮助。
Apr, 2019
本研究提出基于预训练语言模型的动态情境词向量,能够以语言和非语言环境为依据来表征单词的含义变化,并在四个英文数据集上做出定性和定量分析,以彰显其应用潜力。
本文提出了动态词嵌入的概率框架,通过分析三个历史文本集合,证明了动态词嵌入提供比传统词嵌入更好地适应和更好地捕捉语言变化的有趣模式。
Mar, 2017
该研究提出了一种基于概率的语言模型,可以跟踪个别单词随时间的语义演变,并通过嵌入空间中的潜在轨迹表示单词和上下文。研究发现,该动态模型推断的单词嵌入轨迹更易解释,并且具有更高的预测性可能性。
Feb, 2017
该研究通过发展一种动态统计模型学习时态感知的词向量表示,并实现了 “对齐问题” 的解决,从而可以可靠地捕捉时间上的语言演变,并在语义准确性和对齐质量方面持续优于现有的时间嵌入方法。
通过自然语言推理任务设计机制,测量陈旧的语义观念对词向量嵌入产生的影响。通过静态和动态嵌入中的偏见消除策略,减少了对其下游模型的无效推断,特别是对性别偏见的消除策略能够扩展到上下文嵌入中静态组件的有选择性应用(ELMo、BERT)。
Aug, 2019
在研究中,我们发现标准词嵌入即使经过去偏差处理,其性别偏差仍然很高,而上下文词嵌入则能够减少这种性别偏差,从而为自然语言处理应用提供更公正的结果。