ACLSep, 2023
探索训练数据分布和子词标记对机器翻译中的性别偏见的影响
Exploring the Impact of Training Data Distribution and Subword Tokenization on Gender Bias in Machine Translation
Bar Iluz, Tomasz Limisiewicz, Gabriel Stanovsky, David Mareček
TL;DR我们研究了标记化对机器翻译中的性别偏见的影响,着重关注训练数据中性别化职业名称频率、它们在次词标记器词汇表中的表示以及性别偏见之间的相互作用。