面向区域感知偏见评估指标
该论文提出了一种基于 WEAT 和 SEAT 的方法来量化评价指标中的社会偏见,发现在一些基于模型的自动评价指标中也存在广泛的社会偏见,并构建了性别交换的元评价数据集来研究在图像标题和文本摘要任务中性别偏见的潜在影响。结果表明,基于模型的评价指标在评估中给予男性假设更多的偏好,并且在性别交换后评估指标与人类判断之间的相关性通常具有更大的变化。
Oct, 2022
这项研究通过对 24 种语言进行 Word Embedding Association Test (WEAT) 的扩展,以更广阔的研究视角揭示了语言模型的偏见,并通过在全球范围内捕捉有关每种语言的文化相关信息,进一步提高了数据的质量。文章还展示了对毒性、庸能主义等方面的新偏见维度的研究,并通过对印度六种常用语言进行了全面的地区偏见分析,最后通过对嵌入方法的广泛比较强调了这些社会偏见和新维度的重要性,同时强调了解决这些问题对建立更公平的语言模型的必要性。
Oct, 2023
本文针对自然语言处理中存在的公平性问题,提出了一种基于 HERB 方法的区域偏差评估方法,通过对 LMs 学习到的区域偏差进行分析,验证了其存在性,并发现集团地理聚集性对 LMs 的区域偏差具有显著影响。实验结果表明,我们的 hierarchical metric 方法可以有效评估 LMs 的区域偏差,并测量可能传播到下游任务的潜在区域偏差。
Nov, 2022
这项研究探讨在多语言环境中评估和减少性别偏见在语言模型中的挑战,并通过 DisCo 扩展到不同的印度语言来创建了一个评估预训练屏蔽语言模型中性别偏见的基准,同时评估了各种方法对 SOTA 大规模多语言模型减轻此类偏见的有效性。
Jul, 2023
本论文通过系统的调研,研究发现了预训练模型存在性别偏见的问题,探讨了预训练模型在图像字幕生成任务中的公平性影响,并提出了一种针对这种问题的解决方案:结合 n-gram 匹配和预训练模型评估度量,以减少性别偏见的影响。
May, 2023
本论文提出了一个对自然语言文本中的性别偏见进行分解的通用框架,通过多维度的性别偏见分类器可以控制生成模型性别偏差的问题,检测任意文本中的性别偏见,并揭示与性别相关的冒犯性语言。
May, 2020
大型语言模型中的社会偏见评估和缓解技术的综述,介绍了社会偏见与公平的概念、评估指标和数据集,以及介绍了干预方法的分类和研究趋势,帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。
Sep, 2023
本研究提出了一种新的框架,用于探索语言模型中的社会偏见,通过采集探索数据集和利用一种新的公平性评分方法,发现语言模型中的偏见更加复杂,并揭示不同宗教身份导致各种模型中最明显的不平等处理。
Nov, 2023
论文研究了当前用于评估机器学习算法在文本数据上进行性别歧视的不足之处的度量方法,着重于 Bios 数据集上的职业预测任务,研究表明常用的性别偏差指数在训练集样本较小时具有不可靠性。
Jun, 2023