在交叉背景下评估语言模型的偏见态度关联
本文分析了最先进的语境词表示模型,如 BERT 和 GPT-2,对于性别,种族和交叉身份认同的偏差情况,并提出了一种新颖的方法对词语级别上的偏差进行评估。
Nov, 2019
通过引入 Contextualized Embedding Association Test (CEAT) 来度量神经语言模型中的整体偏见及其方差,并开发了自动识别交叉偏见和新现出的交叉偏见的方法 (IBD 和 EIBD),结果表明交叉偏见与种族和性别相关的次数最高。
Jun, 2020
这项研究通过对 24 种语言进行 Word Embedding Association Test (WEAT) 的扩展,以更广阔的研究视角揭示了语言模型的偏见,并通过在全球范围内捕捉有关每种语言的文化相关信息,进一步提高了数据的质量。文章还展示了对毒性、庸能主义等方面的新偏见维度的研究,并通过对印度六种常用语言进行了全面的地区偏见分析,最后通过对嵌入方法的广泛比较强调了这些社会偏见和新维度的重要性,同时强调了解决这些问题对建立更公平的语言模型的必要性。
Oct, 2023
本研究提出了一种新的框架,用于探索语言模型中的社会偏见,通过采集探索数据集和利用一种新的公平性评分方法,发现语言模型中的偏见更加复杂,并揭示不同宗教身份导致各种模型中最明显的不平等处理。
Nov, 2023
本研究在 Word Embedding Association Test 的基础上,对句子编码进行了偏差测量,实验包括了包括 ELMo 和 BERT 在内的多种方法,并提议了未来的研究方向。
Mar, 2019
本研究使用多语言和交叉框架以及下游任务研究公平性问题,提出四个多语言公平评估语料库和一个新的统计框架来研究自然语言处理中的社会偏见,结果表明许多系统在性别、种族、民族和交叉社会偏见方面表现出显著的偏见。
Apr, 2022
该研究对分布式词向量空间中的偏见效应进行了系统性分析,研究表明:偏见效应在不同的词向量模型、文本类型和语言之间是不一致的,同时,双语词向量空间中的跨语言偏见也是存在的。该研究以期促进自然语言处理中的偏见研究,为偏见缓解技术的发展提供帮助。
Apr, 2019
研究发现,语义的向量空间模型存在人类文化中不良偏见的问题,特别是主题性别偏见交互作用,并被语法性别偏见效应超过;同时,这些偏见可以通过语料库词形还原得以减轻,这对机器翻译等下游应用有重要的启示。
May, 2020
该论文提出了一种基于 WEAT 和 SEAT 的方法来量化评价指标中的社会偏见,发现在一些基于模型的自动评价指标中也存在广泛的社会偏见,并构建了性别交换的元评价数据集来研究在图像标题和文本摘要任务中性别偏见的潜在影响。结果表明,基于模型的评价指标在评估中给予男性假设更多的偏好,并且在性别交换后评估指标与人类判断之间的相关性通常具有更大的变化。
Oct, 2022