Apr, 2020

叫我性别歧视者,但是...": 使用心理学量表和对抗样本重新审视性别歧视检测

TL;DR本文提出用基于心理学测量中的不同维度将性别歧视划分的代码书以及该代码书在社交媒体上标注现有和新的数据集的应用程序,以生成对抗性示例并测试当前机器学习模型在性别歧视检测方面的可靠性。虽然现有模型只能识别有限的语言标记,但包括多元化数据和对抗性示例在训练期间可改善模型广泛性和鲁棒性。