在 Reddit 中发现和分类语言偏见
本文研究文本表示模型的偏见问题。尤其是,对于会话语言模型中存在的偏见问题,资源和方法有限,并且缺乏综合评估框架。本文提出了 RedditBias,一种多维偏见评测数据集,并开发了使用其进行评估测试的框架,同时测试了使用四种去偏见方法修复模型偏见后模型在会话生成方面的性能。结果表明,DialoGPT 模型存在宗教群体的偏见问题,但某些去偏见技术可以消除此种偏见并保留下游任务的性能。
Jun, 2021
本研究探索了大语言模型的嵌入和几何模型对偏见建模准确度的影响,利用 RedditBias 数据库分析文本偏见,在偏见分类上,BERT,尤其是迷你 BERT,表现出色,而多语言模型则表现较差。研究建议改进单语模型,并探索领域特定的偏见。
Nov, 2023
本文利用自然语言生成中存在的偏见漏洞,探索了六个不同在线社区的偏见。通过对 GPT-Neo 1.3B 进行精细调整,该文评估了生成模型的偏见,并通过不同的人口属性来比较情感和毒性价值,从而揭示了各种模型的偏见类型和强度的差异。此外,本文所生成的示例还展示了在偏见研究中使用自动情感和毒性分类器的局限性。
Jun, 2023
使用我们的方法,可以了解到 word embedding 偏差的起源,并找出删除哪些文档可以最大程度地降低偏差。我们在《纽约时报》和 Wikipedia 语料库上演示了我们的技术,并发现我们的影响函数近似非常精确。
Oct, 2018
利用上下文词嵌入的概念投射方法,量化了英语语言模型中社会群体的情感倾向,发现语言模型对性别认同、社会阶级和性取向的信号表现出最有偏见的态度,此方法旨在研究语言模型中的历史偏见,并对设计正义做出贡献,探讨了在语言中被边缘化的群体的相关关系。
Jul, 2023
本文介绍了一种用于枚举词嵌入中偏差的算法。该算法利用几何模式在公共可用的嵌入中暴露了大量与敏感特征(如种族和性别)相关的冒犯性联想,以及所谓 “消除偏见” 的嵌入。该算法高度不受监督,可用于识别基于社会建构的许多形式的歧视,如种族歧视,这些歧视可能会因上下文而异。同时,我们还展示了如何移除名字可能无法消除潜在的代理偏差。
Dec, 2018
本文研究了当前用于检测和缓解词嵌入偏差的工具和技术,发现它们对非技术人员存在很高的技术门槛,因此提出开发一种旨在降低技术门槛、提供专业探索力量以应对专家、科学家和普通人日益增长的审核需求的工具。
Jul, 2022
该研究对分布式词向量空间中的偏见效应进行了系统性分析,研究表明:偏见效应在不同的词向量模型、文本类型和语言之间是不一致的,同时,双语词向量空间中的跨语言偏见也是存在的。该研究以期促进自然语言处理中的偏见研究,为偏见缓解技术的发展提供帮助。
Apr, 2019
这项研究通过对 24 种语言进行 Word Embedding Association Test (WEAT) 的扩展,以更广阔的研究视角揭示了语言模型的偏见,并通过在全球范围内捕捉有关每种语言的文化相关信息,进一步提高了数据的质量。文章还展示了对毒性、庸能主义等方面的新偏见维度的研究,并通过对印度六种常用语言进行了全面的地区偏见分析,最后通过对嵌入方法的广泛比较强调了这些社会偏见和新维度的重要性,同时强调了解决这些问题对建立更公平的语言模型的必要性。
Oct, 2023