阿拉伯语平行性别语料库 2.0:扩展和分析
该研究针对阿拉伯语的两个用户的上下文中的语法性别,开发了一个多步骤的系统,以结合基于规则和神经重写模型的正面方面。通过使用商业机器翻译系统的后处理输出,提供基于用户语法性别喜好的个性化输出。
May, 2022
该论文介绍了一种利用大型语言模型对西班牙语语料库进行定量分析性别表达的新方法,通过识别和分类与人类实体相关的具有性别特征的名词和代词,揭示了四个广泛使用的基准数据集中存在的显著性别差异,从男性到女性的比例范围从 4:1 到 6:1,这些发现证明了我们方法在性别语言中进行偏见量化的价值,并建议在自然语言处理中应用该方法,为更公平的语言技术发展做出贡献。
Jun, 2024
提出一种新方法,在语法形态复杂的语言(如西班牙语和希伯来语)中将男性化和女性化的句子互相转换,以达到减少性别刻板印象的目的,同时保持语法正确性。
Jun, 2019
介绍了 User-Aware Arabic Gender Rewriter,一个基于用户的阿拉伯语性别重写对于两个用户的上下文环境的 Web 系统。该系统可以接受阿拉伯语或英语句子作为输入,并为用户提供指定所需的第一和 / 或第二人称目标性别的能力。系统输出重写阿拉伯语输入句子的性别替代(或其英语翻译,在英语输入的情况下),以匹配目标用户的性别偏好。
Oct, 2022
本文介绍了第七届阿拉伯语自然语言处理研讨会上举办的 Gender Rewriting 共享任务的结果和发现,该任务需要生成给定句子的替代版本以匹配不同的目标用户性别背景(例如女性发言人与男性听众、男性发言人与男性听众等等),这需要改变涉及用户的某些词的语法性别(阳性或阴性)。在本任务中,我们专注于阿拉伯语,这是一种具有性别标记且词形丰富的语言,共有来自四个国家的五个团队参加了该共享任务。
Oct, 2022
该研究介绍了一个包含真实文本挑战的性别平衡标记语料库 GAP,旨在解决自然语言理解中消歧代词的长期难题,并探索各种基线方法,最终表明结构和神经模型提供了有希望的补充线索。
Oct, 2018
本研究提出了一种基于跨语言枢轴技术的新颖方法,用于自动生成高质量的性别标签,并展示了这些数据可用于微调 BERT 分类器,该分类器对于西班牙语中丢失的女性代词具有 92%的 F1,相比之下,神经机器翻译模型和非微调 BERT 模型分别为 30-51% 和 54-71%。我们使用来自我们分类器的标签来增强神经机器翻译模型以改进代词翻译,同时仍具有可并行化的翻译模型,可以逐句翻译。
Jun, 2020
这项研究介绍了一个由超过 500GB 的阿拉伯语言清理文本构成的语料库,旨在提高大规模语言模型的跨领域知识和下游泛化能力。此外,该语料库还被用于大型阿拉伯语言模型的训练,在对典型的 NLP 任务进行微调时,与 mBERT 相比表现出 4.5% 至 8.5% 的显着提升,据我所知,这是目前所收集的最大、最清洁、最具多样性的阿拉伯语语料库。
Jan, 2022
通过发布一个包含不同身份的 8.3K 个句子集合 PASTEL,我们可以控制文体的改变并且更准确的评估和设计目标样式和风格转移实验。
Aug, 2019
本文介绍了采集自文学杰作的超过一百万句子对的最大波斯语 - 英语平行语料库,包括其获取过程和统计信息,并使用该语料库对基础统计机器翻译系统进行实验。
Jan, 2018