公共领域感知映射的简单动态词嵌入

MMApr, 2019

公共领域感知映射的简单动态词嵌入

Simple dynamic word embeddings for mapping perceptions in the public sphere

Nabeel Gillani, Roger Levy

TL;DR本文提出了一个统一动态嵌入模型，它能学习属性特定的单词嵌入，在历史语料库中调查了性别、种族和难民等方面的偏见。结果发现，动态嵌入模型与独立向量空间模型相比，在表示语言偏见方面更具优越性或更劣。

Abstract

word embeddings trained on large-scale historical corpora can illuminate human biases and stereotypes that perpetuate social inequalities. These embeddings are often trained in separate vector space models define

word embeddings historical corpora gender biases ethnic biases linguistic biases

发现论文，激发创造

词嵌入量化了 100 年来的性别与族裔刻板印象

本文通过将语义学关系嵌入向量，展示词嵌入的时间动态如何被利用来量化美国 20 世纪至 21 世纪对女性和少数民族的刻板印象和态度变化，通过与美国人口普查融合，表明嵌入的变化与时间内的人口和职业转变密切相关，该框架的时间分析为机器学习和数量社会科学之间的新交叉打开了强大的可能性。

Nov, 2017

词嵌入何时能准确反映我们对人们的信念调查结果？

本文研究了公开可得的单词嵌入在某些社会层面上的偏见反映了实际调查数据，但并非所有维度的数据都能得到反映，只有最显著的偏见维度，例如性别方面，才能得到准确的反映。

Apr, 2020

组合人口学词向量嵌入

研究提出了一种新的形式的个性化词嵌入，使用基于用户的完整或部分人口统计信息的构成导出，展示了人口统计学感知的词表示在两个英语任务（语言建模和词语关联）上优于通用词表示，并探讨了可用属性的数量和它们的相对有效性之间的权衡，并讨论了使用它们的伦理影响。

Oct, 2020

我们是否存在一致偏差？对分布式词向量偏差的多维分析

该研究对分布式词向量空间中的偏见效应进行了系统性分析，研究表明：偏见效应在不同的词向量模型、文本类型和语言之间是不一致的，同时，双语词向量空间中的跨语言偏见也是存在的。该研究以期促进自然语言处理中的偏见研究，为偏见缓解技术的发展提供帮助。

Apr, 2019

动态语境词嵌入

本研究提出基于预训练语言模型的动态情境词向量，能够以语言和非语言环境为依据来表征单词的含义变化，并在四个英文数据集上做出定性和定量分析，以彰显其应用潜力。

Oct, 2020

动态伯努利嵌入在语言演化中的应用

本文提出了动态词嵌入的概率框架，通过分析三个历史文本集合，证明了动态词嵌入提供比传统词嵌入更好地适应和更好地捕捉语言变化的有趣模式。

Mar, 2017

动态词向量

该研究提出了一种基于概率的语言模型，可以跟踪个别单词随时间的语义演变，并通过嵌入空间中的潜在轨迹表示单词和上下文。研究发现，该动态模型推断的单词嵌入轨迹更易解释，并且具有更高的预测性可能性。

Feb, 2017

动态词向量用于演化中的语义发现

该研究通过发展一种动态统计模型学习时态感知的词向量表示，并实现了 “对齐问题” 的解决，从而可以可靠地捕捉时间上的语言演变，并在语义准确性和对齐质量方面持续优于现有的时间嵌入方法。

Mar, 2017

关于测量和减轻词嵌入偏见推断的研究

通过自然语言推理任务设计机制，测量陈旧的语义观念对词向量嵌入产生的影响。通过静态和动态嵌入中的偏见消除策略，减少了对其下游模型的无效推断，特别是对性别偏见的消除策略能够扩展到上下文嵌入中静态组件的有选择性应用（ELMo、BERT）。

Aug, 2019

评估上下文词嵌入中的潜在性别偏见

在研究中，我们发现标准词嵌入即使经过去偏差处理，其性别偏差仍然很高，而上下文词嵌入则能够减少这种性别偏差，从而为自然语言处理应用提供更公正的结果。

Apr, 2019