使用 BERT 解决具有性别歧视的不明确代词
本文中,我们提出了一种通过 fine-tuned pre-trained BERT 模型并使用抽取式问答形式的代替先前的基于 coreference resolvers 的代词消歧任务,从而克服这个性别偏见问题的解决方案,该模型可以在无需先验知识的情况下,在性别平衡的数据集上取得明显的结果 (F1 值的绝对改善率达到 22.2%),还提出了通过 ensemble 模型结合多项选择和序列分类等方法进一步提高表现 (F1 值的绝对改善率达到 23.3%),该模型已在第一届 ACL 会议关于自然语言处理的性别偏见共享任务中获得第九名的成绩。
Jun, 2019
本研究提出一种基于预训练 BERT 模型的神经网络模型来解决语言处理中的性别偏见问题,该模型采用了无参数的注意力机制来计算实体跨度的语境表示,并使用向量表示代替三元语义相似度。经实验证明,该模型在性别代词分辨率任务的训练和测试集上的表现较好。
Aug, 2019
该研究介绍了一个包含真实文本挑战的性别平衡标记语料库 GAP,旨在解决自然语言理解中消歧代词的长期难题,并探索各种基线方法,最终表明结构和神经模型提供了有希望的补充线索。
Oct, 2018
使用 BERT 模型和新颖的数据增强策略,利用共同的填充名称对候选名字进行匿名化处理,提高数据量的同时使模型更好地识别名称、缩短标记长度,并消除与名称相关的性别和地域偏见,有效提升了 Gendered Pronoun Resolution 挑战的性能。
May, 2019
该研究提出了一种用于波斯语代词消解的端到端神经网络系统,利用预训练的 Transformer 模型如 ParsBERT。我们的系统同时优化了提及检测和先行链路,相比前期依赖基于规则和统计方法的最新系统,在 Mehr 语料库上实现了 3.37 F1 分数的提高。这一显著改进展示了将神经网络与语言模型结合的有效性,可能标志着波斯语代词消解领域的显著进展,并为进一步的研究铺平了道路。
May, 2024
本研究提出了一种基于跨语言枢轴技术的新颖方法,用于自动生成高质量的性别标签,并展示了这些数据可用于微调 BERT 分类器,该分类器对于西班牙语中丢失的女性代词具有 92%的 F1,相比之下,神经机器翻译模型和非微调 BERT 模型分别为 30-51% 和 54-71%。我们使用来自我们分类器的标签来增强神经机器翻译模型以改进代词翻译,同时仍具有可并行化的翻译模型,可以逐句翻译。
Jun, 2020
本文在结构句法的监督下,通过将预训练 BERT 与关系图卷积网络 (R-GCN) 相结合,提出了一种端到端的关联分辨器,R-GCN 的嵌入在指代任务上优于 BERT 的原始嵌入,从而将 GAP 数据集上的片段 - 上下文基线 F1 分数显著提高了 13.4 个百分点, 解决了现有的指代分辨器存在的性别偏差问题。
May, 2019
本文提出了一种混合模型,通过将多个基于规则的筛子与针对代词的机器学习筛子相结合,解决了代词消解的挑战。该方法在 400 个文档的波斯语语言语料库中蕴含着出色的性能,并通过与先前模型的比较证明了其有效性。
Nov, 2022
研究探讨荷兰指代消解系统对中性代词(如 hen 和 die)的性能,比较了两种去偏见技术(CDA 和 delexicalisation)对非二元上下文的指代消解系统的影响,并引入了评估中性代词性能的新度量标准 —— 代词得分。结果显示相较于有性别的对应词,中性代词的性能下降,然而 CDA 大大缩小了有性别和中性代词之间的性能差距,并且在资源有限的情况下仍然有效,证明了以最少资源和低计算成本实现有效去偏见的可行性。
Apr, 2024
了解人物性别问题对人物提及的正确解析极为重要,但有风险引起共指解析系统中的系统偏见,本文从社会学和社会语言学的角度具体阐述如何建立可以认知性别复杂性的共指识别系统,并开发了两个新数据集以此来反映和检验系统偏见。通过对英文文本的研究,证实没有认可性别复杂性的系统会导致许多潜在危害。
Oct, 2019