Jun, 2023

礼貌刻板印象与攻击向量:日韩语言模型中的性别刻板印象

TL;DR该研究旨在探讨日韩语言模型中的性别偏见和礼貌级别的语法性别偏见,发现非正式礼貌语是女性语法性别的最佳指示符,粗鲁和正式语言是男性语法性别的最佳指示符。同时,礼貌级别是网络欺凌检测模型中的分配性别偏见攻击向量,并提出了一种攻击数据集来显示分配性别偏见可以被训练消减。