基于余弦的词向量偏倚分数的语义属性

Jan, 2024

基于余弦的词向量偏倚分数的语义属性

Semantic Properties of cosine based bias scores for word embeddings

Sarah Schröder, Alexander Schulz, Fabian Hinder, Barbara Hammer

TL;DR在这项工作中，我们通过基于几何定义的偏见，提出了对偏见得分的要求，以便被认为是衡量偏见的有意义的方法，并通过对文献中的余弦偏见得分进行形式分析，加以强调，并通过实验证明偏见得分的局限性对应用案例产生影响。

Abstract

Plenty of works have brought social biases in language models to attention and proposed methods to detect such biases. As a result, the literature contains a great deal of different →

social biases language models bias tests cosine based bias scores quantifying biases

发现论文，激发创造

SAME 分数：基于余弦的词向量偏差分数的改进

本文研究了利用余弦相似度对词嵌入进行编码的偏见评分，提出了一种新的偏见评分方法 SAME，并用实验证明其比现有的评分方法更能准确评估词嵌入中的偏见。

Mar, 2022

测量上下文化词表示中的偏见

本研究基于模板方法提出了一种量化 BERT 中偏见的方法，并且通过性别代词解析的案例研究证明了该方法在捕捉社会偏见方面的优越性，同时也指出了该方法的普遍适用性，包括在多类别设置中使用的种族和宗教偏见。

Jun, 2019

基于排名的词向量相似度度量

本文研究了基于词嵌入的语义相似度计算方法，提出了一种基于排名的度量方法，在相似度测量和异常值检测方面表现良好，表明基于排名的度量方法可以提高聚类质量。

May, 2018

上下文比对：使用度量张量提高余弦相似度测量

本文中，我们提出了使用扩展余弦相似度测量来提高单词相似度任务的性能，我们还探索了这种方法在上下文相同的情况下特别有效的假设，并使用了不同的数据集来进行测试。测试结果显示，使用本文提出的方法可以显著提高相似度任务的性能。

Mar, 2022

我们是否存在一致偏差？对分布式词向量偏差的多维分析

该研究对分布式词向量空间中的偏见效应进行了系统性分析，研究表明：偏见效应在不同的词向量模型、文本类型和语言之间是不一致的，同时，双语词向量空间中的跨语言偏见也是存在的。该研究以期促进自然语言处理中的偏见研究，为偏见缓解技术的发展提供帮助。

Apr, 2019