EMNLPDec, 2023

自然语言生成中的女性贬低度量:对两个 Reddit 社区的案例研究的初步结果

TL;DR测量自然语言生成中的厌恶问题,并认为通用的 ' 有害性 ' 分类器对此任务不足够。使用 reddit 上的两个 'Incel' 社区的数据来构建训练语料库,我们通过精调两个语言模型表明,某个开源的 ' 有害性 ' 分类器无法区分这些模型的生成结果,而最近由女权主义领域专家提出的具有厌恶特定词汇索引的方法可以作为对厌恶评估的基准,可以揭示这些 Reddit 社区之间已知的差异。我们的初步研究结果凸显了评估伤害的通用方法的局限性,并进一步强调在自然语言评估中需要仔细选择和设计基准。