阿拉伯语平行性别语料库 2.0：扩展和分析

Oct, 2021

阿拉伯语平行性别语料库 2.0：扩展和分析

The Arabic Parallel Gender Corpus 2.0: Extensions and Analyses

Bashar Alhafni, Nizar Habash, Houda Bouamor

TL;DR该研究关注自然语言处理中的性别偏见问题，而新推出的阿拉伯语平行语料库对在阿拉伯语等形态丰富语言中缓解此问题有着重要作用。

Abstract

gender bias in natural language processing (NLP) applications, particularly machine translation, has been receiving increasing attention.

gender bias natural language processing machine translation arabic language corpus

发现论文，激发创造

用户中心的性别重写

该研究针对阿拉伯语的两个用户的上下文中的语法性别，开发了一个多步骤的系统，以结合基于规则和神经重写模型的正面方面。通过使用商业机器翻译系统的后处理输出，提供基于用户语法性别喜好的个性化输出。

May, 2022

利用大型语言模型衡量性别化语言中的性别偏见

该论文介绍了一种利用大型语言模型对西班牙语语料库进行定量分析性别表达的新方法，通过识别和分类与人类实体相关的具有性别特征的名词和代词，揭示了四个广泛使用的基准数据集中存在的显著性别差异，从男性到女性的比例范围从 4:1 到 6:1，这些发现证明了我们方法在性别语言中进行偏见量化的价值，并建议在自然语言处理中应用该方法，为更公平的语言技术发展做出贡献。

Jun, 2024

利用反事实数据增强来减轻语言中丰富形态学的性别刻板印象

提出一种新方法，在语法形态复杂的语言（如西班牙语和希伯来语）中将男性化和女性化的句子互相转换，以达到减少性别刻板印象的目的，同时保持语法正确性。

Jun, 2019

用户感知的阿拉伯语性别重写器

介绍了 User-Aware Arabic Gender Rewriter，一个基于用户的阿拉伯语性别重写对于两个用户的上下文环境的 Web 系统。该系统可以接受阿拉伯语或英语句子作为输入，并为用户提供指定所需的第一和 / 或第二人称目标性别的能力。系统输出重写阿拉伯语输入句子的性别替代（或其英语翻译，在英语输入的情况下），以匹配目标用户的性别偏好。

Oct, 2022

性别重写共享任务

本文介绍了第七届阿拉伯语自然语言处理研讨会上举办的 Gender Rewriting 共享任务的结果和发现，该任务需要生成给定句子的替代版本以匹配不同的目标用户性别背景（例如女性发言人与男性听众、男性发言人与男性听众等等），这需要改变涉及用户的某些词的语法性别（阳性或阴性）。在本任务中，我们专注于阿拉伯语，这是一种具有性别标记且词形丰富的语言，共有来自四个国家的五个团队参加了该共享任务。

Oct, 2022

Mind the GAP: 一个性别不明确代词平衡语料库

该研究介绍了一个包含真实文本挑战的性别平衡标记语料库 GAP，旨在解决自然语言理解中消歧代词的长期难题，并探索各种基线方法，最终表明结构和神经模型提供了有希望的补充线索。

Oct, 2018

可扩展的跨语言支枢词建模代词性别用于翻译

本研究提出了一种基于跨语言枢轴技术的新颖方法，用于自动生成高质量的性别标签，并展示了这些数据可用于微调 BERT 分类器，该分类器对于西班牙语中丢失的女性代词具有 92％的 F1，相比之下，神经机器翻译模型和非微调 BERT 模型分别为 30-51% 和 54-71％。我们使用来自我们分类器的标签来增强神经机器翻译模型以改进代词翻译，同时仍具有可并行化的翻译模型，可以逐句翻译。

Jun, 2020

面向语言建模的大规模多样化阿拉伯语语料库

这项研究介绍了一个由超过 500GB 的阿拉伯语言清理文本构成的语料库，旨在提高大规模语言模型的跨领域知识和下游泛化能力。此外，该语料库还被用于大型阿拉伯语言模型的训练，在对典型的 NLP 任务进行微调时，与 mBERT 相比表现出 4.5% 至 8.5% 的显着提升，据我所知，这是目前所收集的最大、最清洁、最具多样性的阿拉伯语语料库。

Jan, 2022

男性本科生和女性博士生具有不同的含义：具有多个人格的平行注释风格语言数据集

通过发布一个包含不同身份的 8.3K 个句子集合 PASTEL，我们可以控制文体的改变并且更准确的评估和设计目标样式和风格转移实验。

Aug, 2019

MIZAN：波斯語 - 英語大型平行語料庫

本文介绍了采集自文学杰作的超过一百万句子对的最大波斯语 - 英语平行语料库，包括其获取过程和统计信息，并使用该语料库对基础统计机器翻译系统进行实验。

Jan, 2018