Apr, 2022

非洲裔美国英语形态句法特征消歧:以习惯性 be 为例

TL;DR本文研究表明自然语言处理系统对非裔美国人说话者存在偏见,尤其是由于在训练数据中缺乏非裔美国英语独特的语言特征,而多数偏见误差是由于此而引起的。为了克服此类偏见,本文提出了一种流程来解决习惯 “be” 造成的偏见,包括使用基于规则的过滤器和数据增强来生成一个平衡的语料库,我们使用这个平衡语料库训练了无偏见的机器学习分类器,以区分习惯 “be” 与其他形式的 “be”,在非裔美国英语转录文本的语料库上取得了 0.65 的 F1 得分。