INCLUSIFY:德语性别包容基准和模型
研究性别与语言密切相关,与性别平等和非歧视性语言使用的社会辩论紧密相连。心理语言学学者在这个领域做出了重要贡献。然而,在语言使用的语境中进行的基于语料库的研究仍然很少。我们的研究探讨了如果非性别包容性文本重新改写为性别包容性文本,文本实际上需要改变多少。这种定量度量是一种重要的经验观察,因为反对使用性别包容德语的重复论点是它使书面文本变得过长和复杂。同时还有人认为性别包容性语言对语言学习者产生负面影响。然而,只有当性别包容性文本与非性别包容性文本非常不同时,才有可能出现这种影响。在我们的语料库语言学研究中,我们手动注释了德国新闻文本,以确定需要改变的部分。我们的研究结果表明,在所有标记中,平均少于 1% 的令牌受性别包容性语言的影响。这一小比例对于认识和学习这门语言是否构成重大障碍产生了质疑,尤其是考虑到解释男性通用性的潜在复杂性。
Feb, 2024
这篇研究主要关注英德机器翻译中性别公平语言的问题,通过丰富一个社区创建的性别公平语言词典和多句子测试实例的研究资源,对两个商业系统和六个神经机器翻译模型进行了评估,发现大多数系统主要产生男性形式,甚少提供性别中立的变体,强调了未来研究的必要性。
Jun, 2024
该论文介绍了一种利用大型语言模型对西班牙语语料库进行定量分析性别表达的新方法,通过识别和分类与人类实体相关的具有性别特征的名词和代词,揭示了四个广泛使用的基准数据集中存在的显著性别差异,从男性到女性的比例范围从 4:1 到 6:1,这些发现证明了我们方法在性别语言中进行偏见量化的价值,并建议在自然语言处理中应用该方法,为更公平的语言技术发展做出贡献。
Jun, 2024
该研究的主要贡献是,通过收集、注释和增强相关句子以促进检测英文文本中的性别偏见,公开提供已标记的数据集和详尽的词汇表,其中所包含的偏见子类型包括:通用他,通用她,明确标记性别和性别新词。同时,利用词嵌入模型进一步增强了所收集的词汇表。
Jan, 2022
本文讨论性别中立翻译在机器翻译中的应用,并倡导其采用,以解决机器翻译模型延续性别偏见和歧视的问题。作者回顾了有关性别中立语言的相关机构指南,提出了性别中立翻译的策略和使用场景,并探讨了机器翻译中实施性别中立翻译的主要技术挑战。全文重点讨论了英语到意大利语的翻译问题,以代表性别标记规则不同的语言转换难题。
Jan, 2023
研究指出,瑞典语中的性别中立代词与人类的处理没有难度,但在语言计算模型中会导致较高的不确定性、更分散的注意力模式和更劣的下游性能,进而可能限制性别中立代词的广泛应用。
Apr, 2022
我们的研究主要关注从英语到意大利语的性别中性翻译,通过提出专门的基准和探索自动评估方法来满足包容性语言的不断增长的需求。我们介绍了 GeNTE,这是一个自然、双语的性别中性翻译测试集,其创建受到有关中性语言感知和使用的调查的启发。基于 GeNTE,我们概述了现有的基于参考的评估方法,突出了它们的局限性,并提出了一种更适合评估性别中性翻译的无参考方法。
Oct, 2023
提出一种新方法,在语法形态复杂的语言(如西班牙语和希伯来语)中将男性化和女性化的句子互相转换,以达到减少性别刻板印象的目的,同时保持语法正确性。
Jun, 2019
机器翻译模型在使用具有性别化语法的语言进行翻译时存在性别偏见,本文提出了一种公平的机器翻译方法,使用新形态素实现性别包容语言,并探索了使用大型语言模型将英文翻译成意大利文的方法。通过发布 Neo-GATE 资源,我们评估了四种不同类型和不同规模的大型语言模型在这一新颖任务上的优势和劣势。
May, 2024