匿名 BERT:性别代词解析挑战的一种增强方法
该研究介绍了一个包含真实文本挑战的性别平衡标记语料库GAP,旨在解决自然语言理解中消歧代词的长期难题,并探索各种基线方法,最终表明结构和神经模型提供了有希望的补充线索。
Oct, 2018
本文在共指消解和自然语言推理领域引入了一个目标针对常识理解和世界知识的新基准,即Knowref。我们提出了一个包含超过8,000个文本段落的语料库,用于研究具有歧义的代词指代的核心指代功能。我们发现,各种核心参考系统(基于规则的、特征丰富的或神经网络的)在该任务上的表现都比人类差得多,而这可能是因为这些模型缺乏上下文信息。我们还提出了一种数据增强技巧 antecedent switching,并展示了它在其他任务中取得了有 promising 的结果。
Nov, 2018
本文在结构句法的监督下,通过将预训练BERT与关系图卷积网络(R-GCN)相结合,提出了一种端到端的关联分辨器,R-GCN的嵌入在指代任务上优于BERT的原始嵌入,从而将GAP数据集上的片段-上下文基线F1分数显著提高了13.4个百分点, 解决了现有的指代分辨器存在的性别偏差问题。
May, 2019
该论文研究了指代消解的一个子任务,代词消解,并描述了他们基于BERT的方法,该方法能够在性别平衡的情况下,达到92%的性能得分和更低的性别偏差。
Jun, 2019
本文中,我们提出了一种通过fine-tuned pre-trained BERT模型并使用抽取式问答形式的代替先前的基于coreference resolvers的代词消歧任务,从而克服这个性别偏见问题的解决方案,该模型可以在无需先验知识的情况下,在性别平衡的数据集上取得明显的结果 (F1值的绝对改善率达到22.2%),还提出了通过ensemble模型结合多项选择和序列分类等方法进一步提高表现 (F1值的绝对改善率达到23.3%),该模型已在第一届ACL会议关于自然语言处理的性别偏见共享任务中获得第九名的成绩。
Jun, 2019
本研究基于模板方法提出了一种量化BERT中偏见的方法,并且通过性别代词解析的案例研究证明了该方法在捕捉社会偏见方面的优越性,同时也指出了该方法的普遍适用性,包括在多类别设置中使用的种族和宗教偏见。
Jun, 2019
本研究提出一种基于预训练BERT模型的神经网络模型来解决语言处理中的性别偏见问题,该模型采用了无参数的注意力机制来计算实体跨度的语境表示,并使用向量表示代替三元语义相似度。经实验证明,该模型在性别代词分辨率任务的训练和测试集上的表现较好。
Aug, 2019
通过研究语料数据稀缺对子词分词及大型语言模型中单词表示的影响,以及Byte-Pair Encoding (BPE)分词器在缺少特定词汇时与新代词性别错误相关性,提出了保持词语功能结构的新方法PTP来改善大型语言模型中的新代词一致性,实验证明PTP能够使新代词一致性从14.5%提升至58.4%。
Dec, 2023
研究探讨荷兰指代消解系统对中性代词(如hen和die)的性能,比较了两种去偏见技术(CDA和delexicalisation)对非二元上下文的指代消解系统的影响,并引入了评估中性代词性能的新度量标准——代词得分。结果显示相较于有性别的对应词,中性代词的性能下降,然而CDA大大缩小了有性别和中性代词之间的性能差距,并且在资源有限的情况下仍然有效,证明了以最少资源和低计算成本实现有效去偏见的可行性。
Apr, 2024
本研究旨在解决存在于Winogender数据集中对代词不同语法形式的处理不一致、模板约束的违反和排版错误等问题,从而影响性别偏见测量的可靠性。我们提出了一个新的数据集Winogender 2.0,并提出一种新的方法评估核心指代中的代名词偏见,显示偏见特征不仅在代词集之间差异明显,而且在这些集的表面形式之间也存在变化。
Sep, 2024